林允宁看着程新竹整理出来的数据库列表,摇了摇头。
程新竹已经尽了最大努力,她几乎翻遍了全世界所有公开的蛋白质数据库,最终找到了三千一百二十七个带有小分子配体的、高质量的蛋白质复合物结构。
“三千多个还不够?”
程新竹有些沮丧,“这已经是我能找到的全部了。”
“训练一个工业级别的图像识别模型,需要上百万张猫和狗的照片,”
林允宁的逻辑很清晰,“我们现在要训练一个能识别‘分子形状”的模型,三千个样本,连让AI“认字’都不够,更别说让它‘阅读理解了。”
他指着屏幕上的数据
“而且这里面还有严重的偏见。被发表出来的,都是结合得很好的‘成功案例”。我们根本没有失败案例”的数据。这就好比你只教一个孩子看100分的卷子,却指望他能考及格。”
程新竹彻底没辙了,她抱着自己的脑袋,苦恼地说:
“那怎么办?总不能让我们自己去做几百万次实验吧?那得做到下个世纪了。”
办公室里再次陷入了沉默。
窗外,芝加哥的天空阴沉得像是要下雪。
林允宁没有说话,他走到办公室的白板前,站了很久。
他脑子里,闪过的是他那个“信息几何学”的数值引擎,闪过的是那个可以从无到有,凭空“创世”的并行算法。
一个疯狂的想法,在他脑中闪过。
他转过身,看着一脸愁容的程新竹,忽然开口。
“我们不找数据了。”
他的声音不大,却让程新竹猛地抬起头。
“我们自己造。”
程新竹愣住了,她怀疑自己听错了。
“造。。。。。。数据?”
“对。”
林允宁拿起笔,在白板上写下了一个标题??“虚拟化学宇宙生成计划”。
“既然现实世界的数据不够,那我们就用第一性原理,自己创造一个虚拟的化学宇宙。”
他看着目瞪口呆的程新竹,飞快地解释着自己的构想。
“我们可以利用已知的分子力场和溶剂化模型,编写一个程序。这个程序可以随机生成符合化学规则的小分子,再把它们随机地‘扔’到蛋白质的活性位点附近,然后用蒙特卡洛算法,模拟它们之间所有可能的结合构象,计算
出每一个构象的结合能。”
“我们可以生成一百万、一千万,甚至一亿个这样的虚拟样本。这里面,有结合得很好的‘成功案例”,也有完全不匹配的‘失败案例”。这是一个完美的、没有偏见的,我们想要多大就有多大的训练集。”
程新竹听得下巴都快掉下来了。
她张了张嘴,半天才找回自己的声音,问出了那个最核心的问题。
“这。。。。。。这生成的‘假数据。。。。。。能有用吗?”
林允宁看着她,眼神平静而笃定。
“只要它的统计规律和真实世界一致,对AI来说,它就是真实的。”
圣诞节的脚步越来越近。
芝加哥终于飘起了今年的第一场雪。
林允宁刚走出办公室,口袋里的手机就震动了一下。
是一条短信,来自沈知夏
“我妈最近精神很好,她一直念叨你小时候的事。平安夜记得叫上朋友们,过来一起包饺子。