林允宁锁上门,关掉了大灯,只留下一盏台灯。
他给自己倒了一杯刚萃取好的浓缩咖啡,坐在办公桌前。
这一刻,那些关于账单、报表、税务的琐碎噪音终于从脑海中退潮。
属于科学研究的时间到了。
他打开了ThinkPad,新建了一个LaTeX文档。
既然选择了这条路,那就要把路基夯实。
Aether现在的“注意力机制”虽然好用,但在数学上依然是个经验性的黑箱。
为什么它能收敛?
为什么它能捕捉到拓扑特征?
如果不能用严谨的数学语言解释清楚,那它永远只是一个好用的工具,而不是一项科学真理。
林允宁敲下了第一篇论文的标题:
注意力即一切:神经网络可解释性的拓扑学视角
这篇他是打算投给ICML国际机器学习会议的。
他要在这个还没被Transformer统治的年代,提前把“注意力”的大旗插在工程界的山头。
但这还不够。
他新建了第二个文档。
这篇的目标是《AnnalsofMathematics》数学年刊
数学界的四大顶刊之一。
他想要解决的问题,是困扰了他很久的那个“计算瓶颈”。
不管是蛋白质折叠,还是药物筛选,本质上都是高维空间中的数据点分布。
要想理解这些数据的形状,最好的工具是拓扑数据分析TDA。
这就好比你不用知道每一个水分子的位置,只要知道水流形成了几个“漩涡”Bettinumbers,就能理解流体的性质。
但是,现有的算法太慢了。
计算持久同调PersistentHomology的复杂度是O2^n。
面对辉瑞那个级别的海量数据,这个算法跑到宇宙毁灭也算不完。
林允宁在草稿纸上画下一个个单纯复形SimplicialComplex。
“如果。。。。。。”
他喃喃自语,手中的笔在纸上划出一道道线条,“如果我们不计算整个空间的同调群,而是只计算‘注意力’聚焦的那个子空间的同调呢?”
他在纸上画了一个巨大的圆,然后在圆的边缘画了一个小小的红点。
这就像是在这团混沌的毛线球里,只抽取那根最关键的线头。