林允宁看向台下的魏斯,微微一笑,“魏斯博士昨天提醒我,在工业界,这叫死刑。你是对的。”
魏斯挑了挑眉,合上了电脑盖子,靠在椅背上。
这小子还算有点自知之明。
“但是,”
林允宁话锋一转,手里的翻页笔再次按下,“如果我们愿意牺牲一点‘精度”,来换取广度呢?”
屏幕上的PPT变了。
原本复杂的Softmax公式被拆解开来。
AttentionQ,K,V=SoftmaxQ*K^T*V
这一行公式下方,出现了一个红色的叉。
"Softmax是一个非线性函数,它就像是一把锁,把Q查询和K键死死地锁在了一起,强迫我们必须先计算它们之间的关系。
“但如果我们引入一个核函数映射p来近似Softmax。。。。。。”
他在白板上飞快地写下了一行变换:
pQ*pK^T*V=pQ*pK^T*V
“根据矩阵乘法的结合律,”
林允宁敲了敲白板,“我们可以改变计算顺序。先算后面这一部分。原本那个N乘以N的巨大矩阵,消失了。取而代之的,是一个只有d乘以d特征维度的微型矩阵。”
台下原本有些嘈杂的议论声瞬间消失。
在座的都是聪明人,当那个括号的位置发生改变时,所有人脑子里的算盘都在疯狂拨动。
从平方级,变成了线性级。
“如果你这么做,你就毁了注意力。”
一个冷峻的声音打断了林允宁。
魏斯依然坐在椅子上,但他的眼神变得极其锐利。
作为谷歌搜索算法团队的核心人物,他虽然有着大厂高管特有的傲慢,但业务能力也极强,非常专业地指出了致命伤:
“林先生,这是一个聪明的数学把戏。但是,Softmax的作用不仅仅是归一化,它通过指数运算放大了强信号,抑制了弱信号。这叫‘赢家通吃’Winner-take-all。
“正是因为这种尖锐的分布,AI才能精准地关注到那个最重要的词。
“而你用的核函数px??不管你用ELU还是ReLU??它们都是平滑的。如果你把Softmax拿掉,你的注意力分布就会变得非常‘平”,非常‘模糊”。
“你确实把ON^2降到了ON,但你也把一个原本拥有锐利眼神的狙击手,变成了一个散光的近视眼。对于Google搜索来说,这种模糊的匹配是不可接受的。”
魏斯的话音落下,台下响起了一阵低声的附和。
这才是真正的技术痛点。
没有免费的午餐。
你省了算力,就得亏精度。
程新竹在台下捏紧了拳头,手心全是汗。
她虽然不懂具体的数学,但她听得懂“近视眼”这个比喻。
台上的林允宁并没有慌张。
他甚至点了点头,表示赞同。