科技改变生活 · 科技引领未来
虽然甲骨文是迄今为止中国发现的年代最早的成熟文字系统,更是汉字的源头和中华优秀传统文化的根脉。但该文字很多时候都是以图片的形式出现,给文字检索带来了一定的困难,而如今的年轻人对甲骨文的一更是了解甚少。此次在世界人工智能大会上展示智能文字识别技术能对甲骨文进行识别,将形象丰富的甲骨文复刻在龟甲上再进行重新排列组合后,“单身狗”“白富美”“买它买它”等网络热词被一一识别出来。
据介绍,合合信息的智能文字识别技术主要包含了智能图像处理,基于深度学习的复杂场景文字识别,自然语言处理三个核心技术层。智能图像处理技术主要对用户拍摄的复杂文档图像进行预处理,使得文档图像质量得到大幅度提升。基于深度学习的复杂场景文字识别技术,主要利用合合信息自研的手写印刷混排识别,抗强干扰识别,扭曲文字识别,复杂印章和手写识别等一系列先进深度学习识别技术来解决各种不同复杂场景下的文字识别问题,而自然语言处理技术,则是对识别出的结果进行进一步的语义理解。
合合信息相关技术负责人表示,“甲骨文识别的难点在于甲骨残缺严重、素材难获取、拓片清晰度低等难点,这些都是需要通过技术来解决。例如样本素材少,从技术层面上,我们需要解决少样本训练的问题。目前我们主要是初步研究,更多的工作还在路上。”
丁龙东