一分赛车网址

  • <tr id='OVGNoN'><strong id='OVGNoN'></strong><small id='OVGNoN'></small><button id='OVGNoN'></button><li id='OVGNoN'><noscript id='OVGNoN'><big id='OVGNoN'></big><dt id='OVGNoN'></dt></noscript></li></tr><ol id='OVGNoN'><option id='OVGNoN'><table id='OVGNoN'><blockquote id='OVGNoN'><tbody id='OVGNoN'></tbody></blockquote></table></option></ol><u id='OVGNoN'></u><kbd id='OVGNoN'><kbd id='OVGNoN'></kbd></kbd>

    <code id='OVGNoN'><strong id='OVGNoN'></strong></code>

    <fieldset id='OVGNoN'></fieldset>
          <span id='OVGNoN'></span>

              <ins id='OVGNoN'></ins>
              <acronym id='OVGNoN'><em id='OVGNoN'></em><td id='OVGNoN'><div id='OVGNoN'></div></td></acronym><address id='OVGNoN'><big id='OVGNoN'><big id='OVGNoN'></big><legend id='OVGNoN'></legend></big></address>

              <i id='OVGNoN'><div id='OVGNoN'><ins id='OVGNoN'></ins></div></i>
              <i id='OVGNoN'></i>
            1. <dl id='OVGNoN'></dl>
              1. <blockquote id='OVGNoN'><q id='OVGNoN'><noscript id='OVGNoN'></noscript><dt id='OVGNoN'></dt></q></blockquote><noframes id='OVGNoN'><i id='OVGNoN'></i>
                首页
                核心技术
                产品体系
                解决方案
                动态资讯
                关于我们
                搜索
                首页 动态资讯 行业资讯

                浅谈智能文档处理技术与应用

                来源:易道博识 发布时间:2023-04-26
                智能文档处理介绍
                智能文档处理(IDP)是利用人工智能技术,自动从复杂的非结构化和半结构化文档中抽取关键数据,并将其转换成结构化数据的技术。IDP又称为认知数据处理(Cognitive Data Processing)或智能数据捕获(Intelligent Data Capturing)技术。
                众所周知,商业数据是企业数字化转型的核心。然而,现实中80%的商业数据都是非结々构化格式,比如邮件、图片和各种企业文档,其中非结构化文档占据了绝大多数。据统计,到2025年,全球企业数据总量将达到175ZB。借助于IDP技术,企∞业能够实现文档自动化处理、文档语义理解、智能审核和数据智能分析等方面的功能,提升企业用↓户文档处理的效率和质量,为企业降本增效。
                智能文档处理难点
                从文档的结构特点上,我们可以将现实世界的文档划分为结构化、半结构化和非结构化三种类型。对应到版式特征上,分别是固定版式、多版式和开放版式三种类型。
                结构化文档具有版式固◥定的特点,同一类型不同样本之间没有差异,如固定版式的信息采集表、申请文件等。半结构化文档版式相对固定,或称为多版式文档,同一类型不同样本之间关键内容相同,但是往往内容出现的位置却不同,如不同供应商采购的送货单,每个供应商都不同,但是其关键内容都包含订单号、商品信息等〗。
                非结构化文档又称为开放版式文≡档,通常没有显著的版式特征,几乎是纯文本表达,虽然表达的内容相同,但是表达方式却差异很大。常见的如合同、简历、招标文件等。
                对于结构化和半结构化文档,由于版㊣式相对固定,当前行业内普遍的做法是通过模板或深度学习模型的方法,完成分类和信息抽取等自动化处理,已经能够解决大多数应用场景的问题。但是,开放版式文档,由于其天然的诸多难点,给智能文档处理带来了很大的困】难。如下表,是我们归纳的开放版式文档处理的主要难点。


                表1 开放版式文档特点

                智能文档处理核心技术
                如表1,相比【于纯文本或固定◢和多版式文档,开放版式文档处理具有诸多难点。因此,智能文档处理过程必须综合应用计算机视觉(CV)、光学字符∑处理(OCR)、文档解析、自然语言处理(NLP)和文档信『息抽取等关键技术,才能更好地实现自动化和智能化处理。
                计算机视觉(CV)技术

                CV技术主要是对于文档图像进行各种图像处理,常见如图像去噪声、去干扰、图像增强、图像压缩、图像分割等。其处理目的主要是为后续OCR环节提供ξ高质量的图像输入,以提升OCR的性能。同时,利用图像检测和分割等技术,可以实现文档物理版面解析。

                • 光学字符处理(OCR)技术

                OCR是将纸质文档、图片等非数字化文件中的文字内容转换为数字化格式的技术。当前主流实现上,借助表格识别、印章识别、勾选和二维码识别等技术,在OCR环节可以实现图像中所有通用对象(文字、表格、印章、勾选、二维码、签名等)的统一识☉别和输出,作为后续◤智能化文档处理环节的输入。

                • 文档解析技术

                文档解析是在文档协议解析或OCR处理的结果上,通过版面分析、表格解析等技术,实现文档物理和逻辑结构的ㄨ解析,得到文档内容的统一表示。以此作为进一步文档分类、信息抽取和文档比对等处理的输入。IDP通常需要能够支持所有格式的文档输入,包括图片、PDF、Word、OFD等,因此,文档解析环节需要能够解析以上各种格式的输入文件,将其转换成统一的表示形式,如JSON文件。

                • 自然语言处理(NLP)
                NLP是一种利用计算机技术对自然语言进行分析和处理的技术,常见的NLP任务包括分词、词性标注、句法分析、语义分析、文本分类、信息抽取、文档摘要、情感分析等。IDP中主要使用ㄨ的NLP技术包括文本分类、文本信息抽取、语义理解等。通常的做法是将OCR输出或文档协议解析后的所有文本块进行拼接,得到文本序列,再通过文本分类、信息抽取等技术,实现文档的分类和信息抽取。另外,通过NLP技术,也可以对文档进行自动摘要、情感分析和智能问答等〇处理。
                • 文档信息抽取
                相比于纯文本,文档的最大特点是其富格式特点。因此,文档中信息抽取必须依赖于版面位置等视觉特征,比如从文档中的图表或表格中抽取信息,或者从特定版面位置区域的结构化信息块中抽取信息。相比于简单地从大段文本序列中做信息抽取,文档信息抽取技术难度更大。
                智能文档处理流程
                如下图,是智能文档统一处理流程。

                图1 智能文档处理流程

                主要◤包含以下环节:
                • 文档预处理
                该步骤主要针对Word、PDF等文档协议进行解析处理。
                • OCR
                通过通用OCR识别模型,对输入㊣ 的文档图像上的文字、印章、签名、表格等通用要素进行识别,得到文本和位置,以及表格结构化数据。
                • 版面分析
                利用版面分析技术,定位出文档图像上所有的标题、段落、表格、图表、页眉、页脚等版面信息。再利用标题和段落等信息,做文档逻辑结构分析,得到文档结构。
                • 信息抽取
                基于版面和目录分析的结果,结合文档协议解析或OCR的结果,利用自然语言处理等技术,进行文档关键信息抽取。
                • 信息校验
                利用预设的规则,对抽取出的信息进行校验,包括数据〗格式检查、预设的审阅规则检查等。
                智能文档处理应用场景
                主要的智能文档处理应用场景包括:
                • 分类和标签化
                通过智能文档处理技术,可以对大量文档进行分类和标签化,从而实现文□ 档的快速检索、内容推荐和归档处理等功能。
                • 信息抽取
                智能文档处理可以帮助从文档中抽取关键信息,如关键的短语、实体、事件等。这些信息在知识图谱构建、智能搜索、智能比对、智能问答等应用场景中具有重要的价值。
                • 摘要与生成
                利用智能文档处理技术,可以对文档进行自动摘要,生成简洁、精炼的摘要内容。此外,还可以根据用户输入的关键词或短语生成特定主题的文章,以满足♂用户需求。
                • 问答与对话
                通过智能文档处理技术,可以构建∴智能问答系统,为用户提供及时准确的文档内容信息。
                未来随着大模型等人工智能技术的不断发展,智能文档处理将会在各个行业的应用场景中不断普及化。
                赛博智能学习平台智能文档处理
                赛博智能学习平台定位于一体化机器学习训练平台,集成了对于结构化和非结构文档的智能化处理功能,包括智能文档※分类、文档解析和文档信息抽取等。能够支持『合同、法律文书、招投标文件等各种开放版式长文档的智能化处理。基于平台自定义模板和自训练模型能力,通过现场模板定制、模型标注训练的方式,能够形成即时可用的文档AI能力。
                如下图,是赛博智能学习平台智能文档处理的基本流程※。


                图2 赛博智能学习平台智能文档处理流程

                未来,易道博识将继续针对金融、能源、通信等行业客户,在业务运营、审核和监督管理、信息检索和风险管理等场景下,围绕数字化、自动化和智能▅化需求,依托赛博智能学习平台,为企业打造强大AI底座,助力企业建设基于⊙AI模型全生命周期的标准化、一体化生产运营体系。
                赛博智能学习平台以私有化部署、现场训练的形式满足客户对数据安全要求,通过与业务系统深度融合,满足各业务场景在图像处理、OCR、智能文档处理和NLP等方向需求。
                赛博智能学习平台持续将AI大模型等前沿技术与行业数据深度结合,在技术与业务场景之间搭桥铺路,让AI技术快速在场景中落←地,在应用场景中产生价值,带动产业发展和升级。
                在线留言