-
合合信息助力版面分析“泛化”难题突破
2023/4/20 17:23:23 来源:财讯网 【字体:大 中 小】【收藏本页】【打印】【关闭】
核心提示:在将纸质文档扫描成电子文档的过程中,可能会存在漏字、错位等问题,主要是由于扫描仪、文档本身的质量、扫描设置等因素造成的。在将纸质文档扫描成电子文档的过程中,可能会存在漏字、错位等问题,主要是由于扫描仪、文档本身的质量、扫描设置等因素造成的。有个看似“冷门”却关键的技术点极大地影响了文字识别效果,这个技术便是“版面分析”。为了文档扫描中可能出现的问题,合合信息持续突破版面分析技术在版面分割、区域间的逻辑关系处理等方面的难题,通过智能文字识别、智能图像处理等核心技术,助力使用者从各类复杂的图片文档中精准获取信息。
所谓“版面分析”,其主要目的就是为了让机器读懂文档结构,即将文档图像分割成不同类型内容的区域,并分析区域之间的关系,这是内容识别之前的关键步骤。
其实从上世纪80年代开始,研究版面分析的工作成果就已开始涌现,此后经历了多番理念方法迭代。传统的版面分析方法在进行版面布局分析和表格处理时会明显受制于版式差异,在应对不同场景下的文档图片时泛化效果存在缺陷,而深度神经网络的引入有效解决了这些问题。
得益于全卷积神经网络(FCN)和图神经网络(GNN) 的突破,文档版面分析的方法和性能得到了很大发展。合合信息基于深度学习的方法,结合文本区域的几何坐标、视觉特征、文本语义等多种模态信息对文本阅读顺序进行预测,显著提升分类结果。
同时,合合信息表格结构解析方法在逻辑版面分析中也发挥了重要作用,主要包括自上而下的方法、自下而上的方法以及端到端图像到标记的方法等。在财报相关表格识别测试中,有线表识别单元格结构准确率高于98%;无线表识别中,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。
目前,合合信息“版面分析”技术已应用于多个行业。对于研究人员或学生群体而言,版面分析与OCR技术的结合可以广泛应用于课件、试卷、作业、学术论文等材料的数字化处理;商用场景中,面分析与OCR技术能自动识别和提取财务数据、图表、文本等信息,并将印刷财报转换为可分析的电子数据,在处理不同类型的财务报表时,能够提升报告分析效率和准确性。
此外,该技术还可用于文化保护,通过自动识别和提取各种类型书籍的表格、图像信息,将不同时代、多种印刷版式、多种概念的纸质图样按照符合人类理解的格式进行电子化存储,帮助实现文献、古籍、报纸、杂志等资料的数字化和知识管理。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。