林允宁的眉头皱了起来,他又转回白板,“分子不是图片,也不是文本。它是一个图Graph。原子是节点,化学键是边。这东西没有上下左右,也没有前后顺序。”
“我们要在一个非欧几里得的拓扑结构上,定义‘注意力’。”
他说完,没再理会程新竹,直接拉过椅子坐在电脑前。
【系统启动。】
【知识模块‘拓扑学’调用中。。。。。。】
【模拟科研:图神经网络GNN架构重构与注意力机制融合。】
林允宁闭上了眼睛。
喧嚣的实验室消失了,取而代之的是一片纯白的思维空间。
无数个分子结构像悬浮在空中的星系,原子与原子之间通过看不见的化学键相连。
他需要构建一个数学过滤器。
当“查询”Q信号扫过整个分子时,只有那些关键的“键”Key会产生共鸣,从而提取出真正的“值”Value。
这是一场数学上的外科手术。
他要切开神经网络的黑箱,把这套复杂的注意力机制,像起搏器一样植入进去。
接下来的两三天,戈登中心302室成了整个芝加哥大学最安静,也最疯狂的地方。
林允宁进入了一种类似于禅定的状态。
他没有疯狂地敲击键盘,更多的时候,他只是盯着屏幕上的光标发呆,或者在草稿纸上推导着拓扑学公式。
他在模拟器之中,反复构建一个数学上的高维空间。
在这个空间里,每一个原子不再是孤立的点,而是一个包含了周围环境信息的向量。
它们通过那套看不见的“注意力机制”,在数百万次的迭代中,不断地交换信息,重新定义彼此的重要性。
这是一项浩大的工程。
要知道,在2007年初,连GeoffreyHinton那篇关于深度置信网络的开山之作都才刚刚发表,谷歌的Transformer模型还要等十年才会问世。
林允宁现在做的,是用2007年简陋的硬件和软件工具,强行在算力的荒原上,手搓一颗来自未来的核弹。
第二天中午,布兰登回宿舍没看见人,顺路买了几个三明治带到了实验室。
一进门,他就被那满墙的数学公式吓了一跳。
“这是什么?”
布兰登指着白板上一组复杂的矩阵运算,表情像是在看外星文字,“这是某种召唤恶魔的咒语吗?”
“差不多吧。”
程新竹顶着两个巨大的黑眼圈,正趴在桌子上补觉,听到声音抬起头,有气无力地说,“他在教电脑怎么像上帝一样思考。”
林允宁接过布兰登手里的三明治,三两口吞了下去,连味道都没尝出来,就又转回了身。
“谢了。别关门,我需要点冷风,清醒一下。”
第三天凌晨四点。
外面漆黑一片,只有风雪拍打玻璃的声音。
林允宁的手指终于停了下来。
最后一行代码??那个关于多头注意力机制Multi-headAttention的梯度反向传播函数,终于写完了。
他感觉自己的脑子已经被榨干了最后一滴汁水,连视线都有点模糊。
“新竹。”