02小说网

02小说网>学霸的模拟器系统 > 第200章 ON的魔法与傲慢的谷歌求订阅求月票(第2页)

第200章 ON的魔法与傲慢的谷歌求订阅求月票(第2页)

如果N是1000比如一段短文,矩阵就是100万个元素,显卡还能扛得住。

但如果是基因测序的长序列,可能是10万,那就是100亿个元素。现有的任何内存都会瞬间被撑爆。

这就是“算力的囚笼”。

在这个囚笼里,他的算法处理不了长文本,也处理不了高分辨率图像,注定只能是个玩具。

Google正是看准了这一点,才敢断言这个方向没有前途。

林允宁闭上眼,靠在椅背上。

【模拟科研模式启动。】

【注入模拟时长:200小时。】

机舱里的嗡鸣声瞬间消失。

林允宁的意识沉入了一片纯白的数学空间。

在他的眼前,出现了一个巨大的矩阵。那是标准的SoftmaxAttention计算过程:

AttentionQ,K,V=softmaxQ*K^T*V

那个中间产生的Q*K^T矩阵,大得像是一堵墙,横亘在算力的通道上。

它是一个NXN的庞然大物。

【第20小时:你尝试用稀疏矩阵来近似。失败。稀疏化会丢失长距离的语义关联,得不偿失。】

【第60小时:你尝试用低分解Low-rankfactorization。效果一般,精度损失太大。】

【第120小时:你回到了矩阵乘法的最基本性质??结合律。】

A*B*C=A*B*C

这谁都知道。

但在注意力公式里,那个非线性的Softmax函数像是一把锁,锁住了Q和K,让你无法先把K和V乘起来。

“如果我把这把锁换掉呢?”

林允宁的思维在这一刻跳出了深度学习的框架,回到了核方法KernelMethod的领域。

既然Softmax是为了归一化和非线性映射,那为什么不用一个核函数featuremapp来代替它?

SimQ,K=pQ*K^

一旦把非线性操作移到乘法之前,结合律就生效了!

原本的计算顺序是:

Q*K^T*V

这是先算NXN的大矩阵,再乘V

现在的计算顺序可以是:

Q*K^T*V

K^T是dexN,V是Nxd。

它们乘起来,只是一个dxd的小矩阵!

d特征维度通常只有64或128,远小于序列长度N。

【第180小时:推导完成。】

原本随N增长而爆炸的计算墙,瞬间坍塌。

新的复杂度:ON。

已完结热门小说推荐

最新标签