学霸的模拟器系统(林允宁)_第200章 ON的魔法与傲慢的谷歌求订阅求月票第2页

02小说网>学霸的模拟器系统 > 第200章 ON的魔法与傲慢的谷歌求订阅求月票（第2页）

如果N是1000比如一段短文，矩阵就是100万个元素，显卡还能扛得住。

但如果是基因测序的长序列，可能是10万，那就是100亿个元素。现有的任何内存都会瞬间被撑爆。

这就是“算力的囚笼”。

在这个囚笼里，他的算法处理不了长文本，也处理不了高分辨率图像，注定只能是个玩具。

Google正是看准了这一点，才敢断言这个方向没有前途。

林允宁闭上眼，靠在椅背上。

【模拟科研模式启动。】

【注入模拟时长:200小时。】

机舱里的嗡鸣声瞬间消失。

林允宁的意识沉入了一片纯白的数学空间。

在他的眼前，出现了一个巨大的矩阵。那是标准的SoftmaxAttention计算过程:

AttentionQ，K，V=softmaxQ*K^T*V

那个中间产生的Q*K^T矩阵，大得像是一堵墙，横亘在算力的通道上。

它是一个NXN的庞然大物。

【第20小时:你尝试用稀疏矩阵来近似。失败。稀疏化会丢失长距离的语义关联，得不偿失。】

【第60小时:你尝试用低分解Low-rankfactorization。效果一般，精度损失太大。】

【第120小时:你回到了矩阵乘法的最基本性质??结合律。】

A*B*C=A*B*C

这谁都知道。

但在注意力公式里，那个非线性的Softmax函数像是一把锁，锁住了Q和K，让你无法先把K和V乘起来。

“如果我把这把锁换掉呢?”

林允宁的思维在这一刻跳出了深度学习的框架，回到了核方法KernelMethod的领域。

既然Softmax是为了归一化和非线性映射，那为什么不用一个核函数featuremapp来代替它?

SimQ，K=pQ*K^

一旦把非线性操作移到乘法之前，结合律就生效了!

原本的计算顺序是:

Q*K^T*V

这是先算NXN的大矩阵，再乘V

现在的计算顺序可以是:

Q*K^T*V

K^T是dexN，V是Nxd。

它们乘起来，只是一个dxd的小矩阵!

d特征维度通常只有64或128，远小于序列长度N。

【第180小时:推导完成。】

原本随N增长而爆炸的计算墙，瞬间坍塌。

新的复杂度:ON。