“就像。。。。。。我们在看一张复杂的派对照片时,目光会自动聚焦在那个最辣的女孩身上,而忽略背景里的墙纸。”
说着,她下意识挺了挺饱满的胸口,却又意识到自己的话有些不合时宜,轻咳了一声,掩饰尴尬。
方雪若眉毛一挑,看向林允宁,显然对克莱尔这种突然反客为主的画风有些不适应。
但林允宁却笑了。
他看着克莱尔,满意地点了点头。
这姑娘果然是个天才,而且有着极强的直觉。
她已经摸到了那扇门的把手,只是还不知道怎么推开。
“很有趣的想法。”
林允宁站起身,走到白板前,拿起另一支笔。
“你想要‘关注”。但在数学上,怎么定义这种关注?”
他在白板上写下了一个矩阵乘法的雏形。
“如果我们将每个词都映射为一个向量。我们要寻找词与词之间的关系……………”
林允宁一边说,一边写下了三个字母:Q、K、V。
“Query查询,Key键,Value值。”
林允宁的声音在安静的会议室里回荡,带着一种引导性的魔力,“如果把每个词看作是在数据库里的一次查询。
“我想找和‘苹果”相关的词。那么‘苹果’就是Query。
“句子里的其他所有词,都举起手中的Key。
“我们计算Q和K的点积DotProduct,这就代表了它们之间的匹配度??也就是关注度AttentionScore。
随着他的书写,一行简洁而优美的公式出现在白板上:
AttentionQ,K,V=softmaxQK^Tsqrtd_k*V
克莱尔盯着那个公式。
她的瞳孔猛地收缩,像是看到了什么不可思议的东西。
“点积。。。。。。归一化。。。。。。加权求和。。。。。。”
她喃喃自语,随即猛地转头看向林允宁,眼神里满是震惊,“抛弃循环?直接计算所有词之间的相互作用?全连接的拓扑结构?”
“没错。
林允宁看着她,“就像量子纠缠。只要关联度够高,信息瞬间送达,无视距离。最重要的是??”
林允宁指了指隔壁机房的方向:“因为没有了时序依赖,我们可以利用GPU进行大规模并行计算。训练速度将提升成百上千倍。”
克莱尔深吸了一口气。
她知道林允宁在注意力机制和神经网络领域造诣极高,但没想到他居然三言两语就帮她推开了一扇新的大门!
这种数学上的通透感,让她浑身的鸡皮疙瘩都起来了。
比她在半月湾冲过最大的那个浪还要爽。
“这太。。。。。。性感了。”
她忍不住感叹了一句,完全忘了这是在面试,也忘了自己应该保持矜持。
“所以,Claire。”
林允宁放下笔,靠在会议桌上,看着这个终于露出了真面目的女孩,“你的导师李飞飞,是我的好友,她跟我说了你的情况。
“我知道你在担心什么。
“你觉得芝加哥很冷,很无聊,没有加州的阳光和海滩。如果都是要枯燥地写代码,为什么不去一个自己喜欢的地方定居呢?
“但是,我想告诉你,在谷歌,你只是几万名工程师里的一个,负责给搜索广告优化0。1%的点击率。
“而在这里。。。。。。”
林允宁指了指白板上的公式,又指了指机房的方向: