基于深度学习的表格检测识别算法综述

2022-10-19 14:45:00
aiadmin
原创
2409

计 算 机 与 网 络技巧论坛基于深度进修的外格检测识别算法综述孔令军1,2 ,包云超 2 ,王茜雯 2 ,李华康 3(1.金陵科技学院,江苏 南京 211169;2.南京邮电大学,江苏 南京 210003;3.西交利物浦大学,江苏 姑苏 215123)摘 要:新闻时间的高速兴盛导致数据的大方出现与经常传输,单单凭借人力很难处分这些数据。依托于人工智能的兴盛与兴盛,数据的诈欺变得越发高效。外格行为一种独特的数据时势,慢慢惹起了广大眷注。概述了外格识别技巧的兴盛,先容了古板的外格识别技巧及其短处;先容了基于深度进修技巧的外格检测、外格组织识别、端对端检测与识别以及字符识别,重心阐发了外格...

计 算 机 与 网 络技巧论坛基于深度进修的外格检测识别算法综述孔令军1,2 ,包云超 2 ,王茜雯 2 ,李华康 3(1.金陵科技学院,江苏 南京 211169;2.南京邮电大学,江苏 南京 210003;3.西交利物浦大学,江苏 姑苏 215123)摘 要:新闻时间的高速兴盛导致数据的大方出现与经常传输,单单凭借人力很难处分这些数据。依托于人工智能的兴盛与兴盛,数据的诈欺变得越发高效。外格行为一种独特的数据时势,慢慢惹起了广大眷注。概述了外格识别技巧的兴盛,先容了古板的外格识别技巧及其短处;先容了基于深度进修技巧的外格检测、外格组织识别、端对端检测与识别以及字符识别,重心阐发了外格检测与组织识别算法;给出外格数据的数据集以及正在其上的最新目标,预计了外格检测识别技巧的兴盛前景。闭头词:人工智能;深度进修;外格检测;外格组织识别;光学字符识别中图分类号:TP391.4 文献标识码:A 著作编号:1008-1739(2021)02-65-9KONG Lingjun 1,2 , BAOYunchao 2 , WANG Qianwen 2 , LI Huakang 3(1.Jinling Institute of Technology, Nanjing 211169, China;2. Nanjing University of Posts and Telecommunications, Nanjing 210003, China;3. Xian Jiaotong-Liverpool University, Suzhou 215123, China)The rapid development of the information age has resulted in the generation and frequent transmission of a large numberof data, which is difficult to process the data by manpower alone. Relying on the rise and development of artificial intelligence, the useof data has become more efficient. As a special data form, the tables have gradually attracted the attention of researchers. Firstly, thedevelopment of table recognition technology is summarized, and the traditional table recognition technology and its disadvantages arealso introduced. Secondly, the form detection, table structure recognition, end-to-end detection and recognition, and characterrecognition based on deep learning technology are proposed, and the table detection and structure recognition algorithm areemphasized. Finally, the data sets of table data are introduced, and the latest indicators of the current researchers on the data sets aregiven. The development trend of the table detection and recognition is forecasted.artificial intelligence; deep learning; table detection; table structure recognition; optical character recognition收稿日期: 2020-11-17基金项目:中邦博士后科学基金资助项目 ( 2020M671595); 江苏省博士后科研资助盘算资助项目 (2020Z198)0 序文外格是一种独特的新闻外达式样,是人们为了让数据的结构时势越发圭臬和组织化而运用的一种数据类型。外格的特色是新闻高度精粹集结 [1] ,便利新闻的检索和斗劲。外格识其它主意是获取图像中的外格并拜望其数据,是文档分解与识别界限的一个首要分支。寻常生涯中,人们对待外格数据的处分式样平常是:人工运用显示外格的器械掀开外格,然后实行新闻处分。基于人工处分外格的式样,出现了诸众题目:① 由于外格数目繁众,类型繁众繁杂,人工对数据实行更新的流程中,或许会正在差异的外格中写入类似的内容,或者有些单位格里的内容没有获得更新。一朝出现毛病,运用人力查找毛病的时辰特别有限。所以人工处分外格数据往往会变成外格内容毛病、新闻差异等等题目,这种毛病和差异等或许会有损公司声誉,乃至带来经济耗损。② 因为人工提取外格新闻是一个繁琐而耗时的流程,为此必要加入大方职员同时实行这项作事,出现了出格用度。65 计 算 机 与 网 络 技巧论坛③ 正在少许独特的行业如金融业和成立业,外格往往是以非组织化的数字文献如可移植文档样子( PDF )公然的,人工难以对这些文献实行提取和处分。所以,怎样高效地从文档或图像中找到外格区域,同时有用地提取外格中的组织新闻和数据内容,成为了一个亟待处分的题目。 Hu 等人 [2] 将外格识别分为 2 个要紧职责:外格检测和组织识别。外格检测是指定位外格载体中的外格区域,以避免识别流程中非外格区域的滋扰;外格识别是指对外格实行组织识别获取其队伍、宗旨等逻辑组织,再对单位格 里 的 内 容 进 行 光 学 字 符 识 别 ( Optical CharacterRecognition , OCR ),最终将完好的外格新闻写入可编辑文献中。通过提取外格框架,定位外格单位格,终末诈欺 OCR 技巧告终外格文档内容的识别,不只进步了作事结果,并且极大地低落了新闻录入的毛病率。1 外格检测与识别技巧的兴盛邦内的 OCR 技巧考虑开头于 19 世纪 70 年代末 [3] ,跟着科学技巧的神速兴盛, OCR 技巧获得了长足的提高。外格检测与识别技巧的考虑滞后于 OCR 技巧的考虑,得益于识别技巧的提高,该技巧慢慢被考虑者珍重。早期的外格检测与识别考虑要紧是基于开导式规定的本领,即指定一组规定来实行决定,以便识别出满意特定条款的外格。 Chandran 等人 [4] 以程度和笔直倾向为线索,打算了一个以树的时势示意外格组织的编制。 Kieninger 等人[5] 提出的T-Recs 编制运用自底向上的本领对文档图像实行连通分支分解,再遵循界说的规定实行兼并,获得逻辑文本块。 Zanibbi 等人 [6] 将外格识别流程界说为阅览、转换和推理的流程,如图 1所示。 Yildiz 等人 [7] 提出的 pdf2table 是一种正在 PDF 文献中只诈欺文本元素正在文献中的绝对位子来提取外格新闻的本领。正在近期的考虑中, Koci 等人 [8] 将页面中的构造区域示意为图的时势,运用遗传算法从中将外格行为一个子图识别出来。然而,基于开导式规定的外格识别本领打算起来较为繁杂,正在百般场景的外格识别中难以获取较高切实实度,并且鲁棒性相对较差。图 1 外格识别流程近年来,邦外里考虑者对外格识别题目实行了大方考虑,测试引入 Faster R-CNN [9] 、 YOLOv3 [10] 、全卷积神经搜集( FullyConvolutional Networks , FCN )[11] 、图 卷 积 神 经 网 络( GraphConvolutional Network , GCN ) 及 可 变 形 卷 积( DeformableConvolution )[12] 等深度进修本领和搜集。外格识别也慢慢演形成了众个子考虑界限,征求外格检测、外格组织识别、端对端的外格检测与组织识别等。2 基于深度进修的外格检测外格是一种非组织化的物体,所以基于深度进修的物体检测技巧可能行使到外格检测职责上。现阶段,大大批考虑者运用标的检测本领实行外格检测。目前主流标的检测算法大致分为以 Faster R-CNN 为代外的基于候选区域的算法和以 YOLO 为代外的基于回归的算法两类,前者的检测流程可分为 2 步:由 RPN ( Region ProposalNetwork )天生若干个候选框,再通事后续搜集对候选框实行无误回归;后者则直接回归标的的种别概率和坐标位子,如此做会耗损精度,但比前者有更速的速率。正在外格检测职责上, Gilani 等人 [13] 和 Sun 等人 [14] 运用并矫正 Faster R-CNN 搜集,赢得了不错的效率。前者对正在大型数据集 ImageNet 上锻炼好的 Faster R-CNN 模子实行微调。针对外格图像与自然图像之间差异大的题目,提出了一种将外格图像变换为好似自然图像的图像变换算法。该变换算法将输入图片转换为二值图像,再对图像的蓝、绿、红通道区别筹划欧氏隔绝变换、线性隔绝变换和最大隔绝变换。实行图像变换的外格检测流程如图 2 所示 [13] ,输入图像通过骨干网提取特质,其输出特质图输入用于天生含有外格区域的区域提倡搜集,终末搜集判别输入区域是否含有外格对象。通过此本领微调后的模子不受外格组织和构造转化的影响,而且可能对任何数据集实行微调。图 2 实行图像变换的外格检测流程后者引入了角点的观点:外格 4 个极点四周的片面区域称为角点,角点除位子差异外,巨细形式类似,属于统一个外格的角点构成一个角组。基于 Faster R-CNN 搜集,将角点定位维系到外格检测中。到场角点定位的外格检测流程如图 3 所66 计 算 机 与 网 络技巧论坛示 [14] ,骨干搜集 VGG-16 [15] 从文档图像中提取特质图, RPN 和Faster R-CNN 告终外格检测和角点定位,通过坐标配合的式样对角实行分组,并通过分组和先验规定过滤掉不牢靠的角点。针对大大批少线外没有竖直线却存正在程度线的特色,运用牢靠的角点组对检测出来的外格横坐标实行校准,获得精准的外格区域。但角点属于小对象,具有较高的漏检率,并且角点尺寸采用固定值,晦气于外格界线的细化,可能修立自适宜的角点尺寸处分这一题目。图 3 到场角点定位的外格检测流程图像中的标的可能正在轻易位子,以轻易尺寸涌现。古板的卷积搜集存正在一个固定的感触野,不行遵循标的的几何转化做出蜕化,神经搜集中的池化层同样存正在这个题目。为清晰决这一题目, Dai 等人 [12] 提出了可变形卷积神经搜集以及可变形ROI 池化, 3*3 可变形卷积如图 4 所示。可变形卷积可能遵循其输入蜕化感触野,当标的正在实行几何变换时,能作出适宜性的蜕化。对待二维卷积,界说为感触野区域,对待输出特质图 y的轻易位子0 ,古板卷积的筹划为:y(0 )= ( ) ( + ) , ( 1 )而对待可变形卷积,扩展偏移量 ,其筹划为:y(0 )= ( ) ( + + ) 。 ( 2 )式中, 平淡为小数,所以通过双线性差值法来获取对应位子的像素值。正在现实的搜集组织中,可变形的卷积层通过增加一个出格的卷积层来进修偏移量,可变形 ROI 池化层则增加一个出格的全联贯层。如此的搜集组织扩展了很小的筹划量,却明显进步了识其它精度。图 4 3*3 可变形卷积正在文档页面中,外格对象具有较高的类内方差和较低的类间方差,很难对轻易构造的外格实行检测。 Siddiqui 等人 [16] 正在Faster R-CNN 以及 FPN ( Feature Pyramid Networks )[17] 上行使可变形卷积技巧告竣外格检测职责。区别将 Faster R-CNN 骨干网 ResNet-101 [18] 中的 res5a_branch2b, res5b_branch2b 和 res5c_branch2b 三 层 以 及 FPN 骨 干 网 ResNet-101 中 的res3b3_branch2b 和 res4b22_branch2b 两层古板卷积层变为可变形的卷积层,并区别将 ROI 池化用可变形 ROI 池化庖代。通过变换后的搜集如图 5 所示 [16] ,运用正在 ImageNet 上锻炼好的预锻炼模子实行迁徙进修。图 5 行使可变形技巧的搜集组织与上述做法差异, Huang 等人 [19] 运用基于回归的标的检测模子 YOLOv3 实行外格检测。斟酌到文档中外格对象和自然对象之间存正在重大差别,对 YOLOv3 引入了少许自适宜调动,征求一种锚框优化政策和 2 种后处分本领。针对锚框的优化,运用 k-means 聚类来寻找更适合外格而不是自然对象的锚框,使锻炼模子更容易找到外格切实实位子。后处分本领其一是清除预测区域的空缺,即擦除预测区域 4 个倾向上的空缺,该本领能进步查准率和查全率。后处分本领其二是过滤有噪声的页面临象,即将少许被识别为假阳性样本的页眉、页脚和分开线对象过滤掉。该本领大大进步了筹划精度。3 基于深度进修的外格组织识别目前,考虑者民众运用标的检测、图像豆割和图神经搜集等深度进修本领实行外格组织识别。因为外格的独特组织,所以既可能将队伍行为标的检测的对象,也可能将行之间和列之间的分开符行为标的检测的对象。同样,这些对象也可能用图像豆割本领实行豆割。外格组织识其它最终标的是识别单位格新闻,所以可能将此题目明白成 2 个子题目,即识别外格中的行和列。 Siddiqui等人 [20] 基于 FCN 框架运用语义豆割技巧正在统一搜集中处分了这 2 个子题目,其模子如图 6 所示 [20] 。对外格组织提出了一个同等性假设,即外格一切行从第一列的开始开头,到终末一列的止境停止。同样,一切列从第一行的开始开头,无间延长到终末一行的止境。基于这一假设,正在 FCN 的编解码器后面增加预测切片和缓铺片面,以低落队伍豆割的繁杂度。输入图像通过编解码器天生与原图巨细类似的特质图,预测切片是对 ×× 的特质图区别实行行和列均匀,出现 × 和 × C 巨细的特质图。这些特质图通过两层卷积层后,区别按行和列实行复制平铺还原为 × × 巨细的特质图,通过一层 1 × 1 的卷积层获取每个像素点的标签,个中标签分为 3 类:后台、行 /67 计 算 机 与 网 络 技巧论坛列和行 / 列与后台之间的像素。终末通事后处分来获取最终的豆割结果。此本领容易出现太甚豆割的区域,可能运用开导式本领或者其他模子处分。图 6 基于 FCN 的语义豆割模子为了避免基于 FCN 的外格组织识别本领 [20] 主要依赖后处分的短处, Siddiqui 等人 [21] 将外格组织中的行、列识别视为标的检测题目,个中文档可被视为场景,行、列可被视为对象,并区别正在 Faster R-CNN 、 R-FCN [22] 和 FPN 上运用可变形卷积技巧搭修模子。到场可变形卷积的模子如图 7 所示 [21] 。 3 种模子都运用正在 ImageNet 长进行过预锻炼的 ResNet-101 实行特质提取,其平分别将 Faster R-CNN 、 R-FCN 搜集的顶部 3 层卷积层转换为可变形卷积层,对待 FPN 则出格转换了第 4 层,以进一步进步提取特质的质地。还将变换后的 Faster R-CNN 的 ROI 池化层转换为可变形 ROI 池化层。图 7 到场可变形卷积的模子Tensmeyer 等人 [23] 提出了外格组织识其它深度进修模子SPLERGE ,由豆割模子和兼并模子 2 个模子构成,豆割模子又分为行豆割模子和列豆割模子。...

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号