“但是?”
林允宁听出了话外音。
“但是它还可以变得更强。”
埃琳娜抓了抓乱糟糟的头发,“我手头的数据太少了。材料科学发展了上百年,有几百万篇文献躺在数据库里。
“那些前人积累的配方、相图、失败的实验记录。。。。。。我想把它们全喂给AI,让它学会人类所有的材料学知识。”
林允宁看着兴奋的女疯子,沉默了几秒。
“埃琳娜,想法很好。”
他放下咖啡杯,语气冷静,“但目前还做不到。”
“为什么?!”
埃琳娜瞪大了眼睛,“你和克莱尔的那个新的显卡集群不是刚上线吗?”
“现在的算力还远远不够,而且,目前最大的问题是格式。”
林允宁伸出手指,隔空点了点屏幕,“那些50年代,60年代的老文献,全是扫描的图片。有些甚至就是手写的笔记。”
埃琳娜愣了一下,点了点头:“即使是比较新的文献,也有大量的图片,图表,复杂的化学式、晶体结构图,还有那些乱七八糟的希腊字母上下标。这些都很难直接转化为矢量,用来训练模型。”
林允宁叹了口气,“现在的AI,哪怕是我们用了ResNet,它的视觉识别能力也还没到那个份上。
“如果我们强行喂进去,只会得到一堆垃圾数据。
"Garbagein,garbageout垃圾进,垃圾出。
埃琳娜的肩膀垮了下来,像个泄了气的皮球。
“那怎么办?这些可是宝藏啊。”
“别急,不能一口吃成个胖子。”
林允宁想了想,“你的想法是好的。
“可以让克莱尔写个爬虫,去抓取最近三四年发表的、有标准电子版格式XML或HTML的材料学论文。
“先让AI学会“规范”的化学语言。等它底子打好了,我们再想办法攻克OCR光学字符识别这个难关,去啃那些老骨头。”
他看向克莱尔,“这个任务归你了。别总想着八卦老板,先帮埃琳娜把爬虫好。年底我放你假,随便出去玩。”
克莱尔翻了个白眼,比了个OK的手势。
埃琳娜叹了口气,虽然不甘心,但也知道这是目前的极限。
“好吧。听你的。不过你得快点回来,泰坦合金的二代配方,我有点新想法,需要你那个AI脑子帮我算算。”
“后天见。”
视频挂断。
屏幕黑了下来,映出林允宁略显疲惫的脸。
他合上电脑,走到窗前。
雨停了。
布雷沃河谷的夜空难得地露出了一角星空。
第二天上午。
林允宁收拾好了行李。