随着克莱尔那根贴满水钻的长指甲狠狠敲在回车键上,黑色的终端窗口瞬间变成了代码的瀑布。
“看好了,Boss。”
克莱尔单手撑在桌子上,另一只手还在摆弄她那夸张的水钻指甲,语气里透着股轻松,“这种PDF文档,如果用正则表达式去洗,那是自寻死路。
“结构太乱了,正则写不完的。
“只有笨蛋才试图教计算机去读”排版乱得像垃圾堆一样的PDF。
“聪明人,直接让计算机去‘看”。”
屏幕上弹出了一个可视化的处理界面。
原本那篇版面支离破碎的论文,瞬间被无数个绿色的矩形框覆盖。
“这叫??视觉布局分析VisualLayoutAnalysis。”
克莱尔指着屏幕,语气像是在炫耀自己新买的滑板,“我用SVM支持向量机训练了一个简单的二分类器。
“对于计算机视觉来说,正文段落是高维空间里的一团紧密簇,而页眉、页脚、侧边栏广告、致谢词。。。。。。它们在几何特征上全是异类。”
“只要找到那个超平面Hyperplane。
她打了个响指,“一刀切下去,垃圾全在界外。”
屏幕上,红色的“删除”指令如雨点般落下。
几万篇PDF文档像是在经历一场精密的外科手术,所有的赘肉被精准剔除。
只剩下最核心、最干净的文本流,源源不断地喂入那个原本消化不良的模型。
几分钟之后。
一直像心电图一样乱跳的Loss损失曲线,像是被一只看不见的大手狠狠按了一下,瞬间调头向下,画出了一条令人极度舒适的收敛弧线。
Loss:2。4->1。8->0。9。。。
林允宁盯着那条曲线,端着咖啡的手停在半空。
避开语义泥潭,直接用计算机视觉CV的方法解决自然语言处理NLP的数据清洗问题。
典型的跨界打击。
“视觉特征分类。。。。。。直接从排版几何规律入手。”
他放下杯子,转头看向克莱尔,满意地点了点头,“这就是你们普林斯顿所谓的‘懒人智慧?确实比我想象的高效。”
“那当然,在普林斯顿,想偷懒也是门技术活。”
克莱尔一把合笔记本电脑,冲着林允宁摊开手掌,笑得像只偷腥的猫:
“Loss降下去了,数据洗干净了。林老板,愿赌服输?”
“服什么输?我打什么赌了?”
林允宁还在思考SVM的核函数选择问题,下意识反问。
克莱尔眼一瞪:
“你刚才答应的!我要是解决了数据清洗的问题,今晚全场的消费由林公子买单!”
林允宁揉了揉太阳穴。好像是有这么回事。
“行,买单就买单。”
他揉了揉太阳穴,无奈地叹了口气,拿出车钥匙,“不过先说好,我只负责买单,不负责跳舞。