十二月的温哥华,空气湿润而凛冽。
灰蓝色的海湾倒映着北岸山脉的积雪,海鸥在温哥华会议中心的巨型玻璃幕墙外盘旋。
NIPS2007神经信息处理系统大会的注册大厅里,人声鼎沸。
林允宁刚领完胸牌,还没来得及把那个略显廉价的挂绳套在脖子上,就被一群年轻的面孔围住了。
“林-God!能不能签个名?”
一个戴着厚底眼镜的男生激动地递过来打印好的论文,封面上赫然印着《LinearAttentionMechanism》线性注意力机制。
“我是伯克利的一年级博士生。您的这个算法简直是救命稻草!我们在做长序列基因预测,之前跑一次模型要一周,用了您的技巧优化后,现在只要半天!”
“林先生,关于您那篇暗流体的论文,我在物理系的室友说您重新定义了真空?”
"**。。。。。。"
林允宁熟练地接过马克笔,在那篇论文的空白处签下了名字。
这一年来的历练,让他对这种场面已经习以为常。
他不像是来参会的学生,更像是走红毯的明星。
“看来我们的‘物理学家’人气很高啊。”
一个带着英伦腔调的声音从侧方传来。
人群自动分开一条路。
杰弗里?辛顿GeoffreyHinton穿着一件看着有些年头的粗花呢西装,正笑眯眯地看着他。
站在辛顿旁边的,是穿着格子衬衫、背着双肩包的Google工程战神杰夫?迪恩JeffDean。
“辛顿教授,迪恩博士。”
林允宁盖上笔帽,微笑着走过去握手,“ICML一别,好久不见。”
“确实好久不见。”
杰夫?迪恩的眼神依然热切,像是在看一块未被开采的金矿,“听说你最近在数学界和物理界闹出的动静很大?陶哲轩都在给我发邮件夸你。怎么样,有没有兴趣来GoogleBrain给我们讲讲那个‘复配边算子?顺便聊聊入职的
事?”
“杰夫,你就别费心了。”
辛顿打断了迪恩的挖角,“林这种人,注定是要自己定义问题的,而不是去解决别人定义的问题。不过,林,我很期待你今天的Keynote。听说你要从几何流的角度讲优化?”
“我确实有一点不成熟的想法。”
林允宁谦虚了一句,“希望能给在这个寒冬里坚持神经网络的人,一点信心。”
周围的参会者们看着这三个大佬级别的任务谈笑风生,眼神里充满了敬畏。
在2007年,这三个人站在一起,基本上就代表了人工智能的一半未来。
只是,其中有个人实在年轻的有点过分。
上午十点,主会场。
巨大的投影幕布上,显示着Keynote的标题:
《从几何流看神经网络的优化景观》。
演讲很成功。
林允宁的讲座深入浅出,没有用枯燥的代码,而是用物理直觉,将神经网络的参数空间比作一个高维的能量地形图,阐述了为什么传统的梯度下降法容易陷入局部极小值。
到了提问环节。
一位来自麻省理工学院MIT的老教授站了起来,扶了扶话筒
“林先生,你的几何比喻很精彩。但是,深层网络的优化曲面是非凸的Non-convex,存在大量的鞍点SaddlePoints。在数学上,这些点会导致海森矩阵HessianMatrix出现负特征值,从而阻碍收敛。你是
如何看待这个问题的?”
这是一个非常硬核的数学问题。
全场安静下来,等待着林允宁的回答。