百万次调用!合合信息智能文字识别技术解决复杂场景中的表格识别难点

2022-10-03 13:55:00
aiadmin
原创
2562

外格是文档中常睹的对象。从学生往往填写的报名外,到办公场景中涉及的财政报外、单据,外格识其余需求平常存正在于小我存在、社会临盆之中。特别正在进入玄月之后,跟着高校开学,企业滥觞下手下一年度的开展筹划,外格经管的职责不竭加重。高精准度的外格识别本领可以大幅减削文献经管时刻,是合合讯息智能文字识别本领中,图像经管和纷乱场景文字识别本领的首要行使。

外格识别合键蕴涵外格检测和外格构造识别两大职责。外格检测合键检测外格主体,即从图片中确认外格区域;外格构造识别是对外格区域举办领悟,提取外格中的数据与构造讯息,取得外格的队伍逻辑构造。

两大职责均具有相当的纷乱性。最初,外格种别众样,依据有宽广框能够分为有线外、少线外、无线外等。从有线外、少线外到无线外,外格识别难度慢慢添补。同时,外格文献中常睹的布景填充、单位格队伍团结等情形,会进一步添补外格识别难度。其他外部成分,如图片倾斜褶皱、布景搅扰等题目,都邑对外格识别带来离间。

近年来人工智能本领飞速开展,预备机视觉(CV)、自然说话经管(NLP)和图神经搜集等深度练习门径被平常引入外格识别职责中,比如语义破裂、目的检测、序列预测等。正在16年规模深耕中,合合讯息智能文字识别本领掩盖了图片、PDF花式文档中众品种的外格识别需求,蕴涵有线外,三线外,无线外等,而且援救团结单位格、众外格并存等纷乱情形的识别。

基于分治思思,合合讯息引入深度练习本领,将外格识别分为有线外识别和无线外识别两种计划。有线外识别中,合合讯息操纵语义破裂、角点回归等本领计划还原有线外,正在财报合连外格识别测试中,有线外识别单位格构造切实率高于98%。

无线外识别是外格识别中的难点,教科书上的个人统计外、药品配方外,都存正在框线不完善以至无框线的情形。无线外短少外格线,直接套用有线外识别计划无法取得理思的外格构造。合合讯息无线外识别采用序列模子、条例成婚等计划,通过自研模子直接预测外格的逻辑构造,再取得外格的物理构造,正在担保外格区域内容的完善性的同时,检测切实率较守旧门径明显提拔。

现阶段,合合讯息智能文字识别本领中的外格识别本领已被行使于以“扫描万能王”为代外的C端APP中,通过“文献转换excel”效力供职于群众存在和办公需求。存在中,用户能够利用扫描万能王唾手拍下手边的清单、小我合同、仿单等,APP将提炼此中的外格内容,起到备忘用意;办公场景下,利用者可扫描、拍摄事情文献,提取图片、PDF中的文字内容,并将其转化为可编辑文档,便于二次编辑和分享。近半年来,“文献转换excel”合连效力累计被移用百万次。

B端规模中,举动合合讯息智能文字识别引擎中的首要模块,外格识别本领已落地正在保障、银行、证券等行业中,行使于合同、银行流水、物流票据识别等众个场景。以财政场景为例,合合讯息外格识别本领被行使于企业发票与订单的数字全流程处理中,曾助力环球着名汽车零配件供应商伟巴斯特完毕单据智能扫描、识别、验真、合规自愿查抄、发票与订单数据成婚、数字化数据、影像留存等全流程财税处理,功课成果提拔500%~1000%。

据悉,合合讯息曾正在2019年邦际文档领悟识别大会(ICDAR)中取得外格识别竞赛的冠军。公司智能文字识别合连本领还正在邦际顶会ICPR、ICFHR等竞赛中取得十余项冠军,并于CVPR、AAAI、ACL、ACM MM等邦际顶会上颁发。

合合讯息是一家人工智能及大数据科技企业,从2006年创立至今,争持深耕智能文字识别行使及贸易大数据中央本领规模,通过C端、B端产物以及行业处分计划,为环球百余个邦度和地域的亿级用户及近30个行业的企业客户供给革新的数字化、智能化供职。合合讯息外格识别本领可对流水单、单据、合划一含外格区域的文档内容举办精准识别,供职于文档清楚、讯息抽取等下逛职责。

30年最猛一天!3300万份做空“枪弹”奔袭,外围大扔售来历曝光!锂业巨头突遇利空,影响众大?

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号