“大家早上好。”
林允宁没有寒暄,直接按下翻页笔。
屏幕上出现了一张对比图。左边是目前主流的AlexNet8层,右边是一根细长的,密密麻麻的柱状图。
“这是我们构建的深层神经网络??ResNet-101。"
林允宁指着右边的图,声音平稳,“它有101层。”
"--"
台下瞬间炸了锅。
“101层?他疯了吧?”
“简直荒谬!这么多层数,梯度早就消失了!根本训练不起来!”
“这就是物理学家的傲慢吗?以为层数越多越好?”
一位坐在前排,头发花白的老教授站了起来。
他是来自MIT计算机实验室的权威,坚定的SVM支持向量机拥护者。
“林先生,”
老教授也不管是不是提问环节,直接抓过麦克风,“你的理论很漂亮。但众所周知,神经网络一旦超过20层,就会面临严重的退化问题DegradationProblem。训练误差不降反升。你这101层,是在做数学游戏,还是
在堆积木玩?”
台下响起一阵低笑。
深层神经网络是个漂亮的学术陷阱,这是在场所有人的共识。
加深网络层数,只会得到一堆无法收敛的垃圾参数。
林允宁并没有辩解。
他笑了笑,按下了下一页PPT。
那是ResNet的核心结构??一个简单的跳跃连接SkipConnection。
Hx=Fx+x
“教授,您说得对。深层网络很难训练,就像让一个人传话给第100个人,信息肯定会失真。”
林允宁指着那条连接线,“但如果我们给信息修一条‘高速公路呢?
“我们不再让网络去学习完整的输出,而是让它只学习‘残差’Residual。如果这一层什么都不做,它就是恒等映射IdentityMapping,信息可以无损地流向下一层。
“这不仅仅是数学游戏。为了训练这个模型,以太动力的算力中心满负荷运转了整整两周。
“数学不会骗人,但直觉会。至于它到底是不是浪费电费。。。。。。”
林允宁看了一眼台下神色各异的众人,关掉了PPT:
“下午的ImageNet挑战赛,结果会说明一切。”
下午三点,ImageNetWorkshop现场。
这里的气氛比上午还要紧张。
李飞飞教授站在台侧,手心里全是汗。
这是ImageNet的第一战,如果大家都跑不出好成绩,那这个巨大的数据集就会沦为业界的笑柄。
大屏幕上,实时的排行榜Leaderboard正在滚动。
比赛已经开始半小时了。
排在第一的是微软亚洲研究院的团队,Top-5错误率:26。2%。
紧随其后的是牛津大学的VGG组:26。8%。
谷歌团队:27。1%。
数字在小数点后一位艰难地跳动着。