1分快3首页

<i id='M3On0Z'></i>

_{<blockquote id='M3On0Z'><q id='M3On0Z'><noscript id='M3On0Z'></noscript><dt id='M3On0Z'></dt></q></blockquote><noframes id='M3On0Z'><i id='M3On0Z'></i>}

首页动态资讯行业资讯

大模型技术在智能文档处◥理中的应用（下篇）

来源：易道博识发布时间：2023-06-15

一个专业的IDP系统至少需要具备如下两方面的能力，才能够满足富格式文档的智能化处理需求。

具备多模※态信息处理能力

由于文档本身多模态的特点，决定了IDP系统必须能够综合应用◥计算机视觉和自然语言处理等技术∞，包括图像处理、OCR、表格识别、文档解析、文本分析、文本理解】等，对于文档中的标题、段落、表格、图表、印章、签名等多模态信息▓进行识别、提取和进一步的理解和分析。

具备领域样本高效学习能力

由于不同领域的文档特征差异很大，为■了在领域数据上达到业务可用的精度要求，IDP系统必须具备领域样本高效学习能力，能够生成□优化后的模型，满足业务场景应用需求◆，为实际业务创造价值。

多模态能力和领域学习能力等方面的要求，决定了通用IDP系统是一个复杂的综合性软件系统，对于技术架构和系统设Ψ 计提出了很高的要求。架构上，IDP系统需要能够兼容各种深度学习框架，并能够对于各种预训练大模型、多模态预置模型和用户↙自训练的领域模型实现有效的模型治理。并且，能够以统一的模型能力层，向文档应用层提供接口，满足上层智▅能化应用的调用需求。

大语言模∮型在智能文档处理中的价值与挑战

如下图，是一个常见的】IDP系统模型∞技术栈。可以看出，LLMs仅仅是在自然语言文本这个模态上，作为预训练基础模型（如红色高亮部分№）。相比于文本」领域的处理能力，IDP系统中更加核心的功能在于文档图像和多模态信息的综合处理能力，包括OCR、表格识别、印章识别，以及文档分类、信息检索和文档抽取等。

图2 IDP模型技术栈

因此，对于IDP系统，大语言模型主要作用是帮助提升文档文本的理解和↓生成能力，尚无法完全替代IDP模型技术栈。

大语言模型在IDP系统的主要应用包括：

提升文档分类精度

利用大语言模型强大的文本理解能力，提升文档中文本信息的分类能√力，如段落和条款，进而提升文档信息检索和文档★分类的效果。

提供文档知识问答能力

相比于BERT等大语言模型，GPT大模型具备生成式的特△点，能够更好满足文档知』识实时问答的应用，帮助实现●诸如“与你的文档聊天”等应用功能。

提升信息抽○取精度

大语言模型在文本信息抽取方面具备强⌒　大的能力，如从特定条款或段落中抽取①实体、关系和事件，帮助提升文档关键信息抽取能力。

提升条款和段落比对精度

利用大语言模型强︽大的理解能力，能够提升文档中不同条款、段落之间，以及与标准条款和段ξ落的比对精度，改善文档比对效果。

大语言模型☉在帮助提升IDP文本处理能力的同时，也面临∮诸多挑战和风险，主要包括：

模型输入长◣度有限，长文∏档处理能力受限

GPT-4具有最大32K Token输入和25K Word输入♀的要求，限制了对于长文档的处理能力，如几十上百页的合同和报告文件。这就要求¤必须通过前置的信息检索或段落抽取等预处理，提取出大篇幅文档中的相关部分，再输入大∴模型进行后续任务处理。

生成式特点，导致模型输出无法溯源，准确性差

不同于BERT等大模型，GPT(Generative Pre-trained Tranformer)模型属于生成式语言模型，对于模▆型输出的信息无法进行精准溯源，即很多情况下无法准确获得输出内容在『文档中的具体位置，这就增加了输出的风险性。在对【于模型精准度要求高的场景下，如金融业务场景，往往极小概率的风险也会带来巨大的损失。因此，就需要√通过模型优化和后处理等方法进行有效规╲避，避免非法输出问题。

领域知识匮乏，影响模型效果

上文提到，文档的一大特征在于其领域信息的多样性和差异性。通用大语言模型通▂常基于公开的互联网语料训练获※得，包括维基百科、新闻文章、社交媒体等，因此，缺乏对于领域知识的深度学习和理解。实际应用中，必须结合领域数据№基于预训练语言模型进行学》习和调优，以达＠到实际业务场景的使用要求，这也是IDP系统必▲须具备高效学习能力的根本原因。

模型参数量巨大，对算力∩要求高

大模型通常具备较大的参数规模，如GPT-3.5有1750亿参数，对于本地化和卐私有化部署场景下的算力成本具←有很高的要求。因此，这些场景下，必须进行模型轻量化处理才能真正落地使用，如通过知识蒸馏※和模型量化等技术。

赛博结合大模型①技术打造高效学习能力，提供IDP全新解决方案

赛博智能学习平〗台定位于一站式机器学习平台，基于⊙预置的多模态能力和高效的领域数据学习能力，支持对于图片和文档等非结构化数据的↑智能化处理。在预╱置多模态能力的基础上，提供高效的领域数据学♀习能力，是赛博√平台智能文档处理的核心优势。如下图，是关于赛博平台智能文档处理的核心能力介绍。

图3 赛博平台智能】文档处理核心能力

主卐要的预置多模态能力包括：

图像处理

提♂供通用文档图像检测、区域分割和矫正、文档图像质量检测（模糊、反光、遮挡、拍屏、水印、复印、篡改、变形、切边和∮距离远等）、干扰和噪声去除等预置能力。

OCR

提供通用和场景OCR功能。通用OCR支持对于常见的文档图像要素的识别，包括文本（打印、手写、多语言）、表格、印章、勾选和签名等。场景OCR功能支持☆超过50种场景文档图像的识别能力，涵盖标准卡证、票据、表单和凭◤证。

文档处理

提供通用的文档处』理能力，包括文档格式转换、协议解析、版面分析、文∮档解析等，以及合同等场景文档抽取能力。

自然语言处理

提供基础的自然语言处理功能，包括文⊙本分类、信息抽取、通用问答、情感分析等。

如前节〓所述，文档具有领域特征差异大的特点，主要表现在不同领域文档□之间在种类、版式、语料和表达方式等方面存在较大差异。因此，高效的领域文档学习能力，是IDP系统必备的基◤本功能，这也是赛博平台的核心功能之一。如下图是关↘于赛博平台高效学习能力的原理介绍。

图4 赛博学习能力

赛博平台IDP学习能力以大规模语言模型和文ぷ档版式预训练模型∏为基础，通过下游任务中▲/小模型█算法设计，结合领域数据，高效生成场景模型，并通过一键式模型部』署和API生成，输出场景化AI能力，如文档分类【、信息检索、文档抽取、段落比对等。依托机器学习功能底△座▲，赛博平台能够提供文档数据集标注、模型训练、模型部署和API应用等一体化操作功能，支持用户通过可视化页面，高效完成领域文档数据的学习和模型能力的输出与应用。

另外，为了更好地满足业务场景需●求，实现与业务深度融合，赛博平台支持模型输出规则和API代码补丁定制↓，能够在线实现模型输№出格式转换╲、字段拆分与合并、噪声剔除以及其他高级后处理功←能，有效解决模型输出与业务需求之间“最后一公Ψ里”的问题。

未来，易道博识将继续立足于金融、能源、通信等〖行业，围绕企业在日常业务运营、审核和监督〓管理、信息检索和风险管控等场景下的数智化转型『需求▽，依托赛博智能学习平台底座，在满足客户数据安全的前提下，通过高效学习能●力，将大模型等前沿技术与客户业务数据相结合，发挥ξ　巨大效能，通过与业务场景的深度融合，为业务赋能。

上一篇：易道博识入选“第六届数「字金融创新大赛——2023数字金融创新先锋榜”

下一篇：大模型技术在智能文档处理中的应用（上篇）

返回列表

更多资讯

易道博识OCR智能识别方案，助力金融业降本增效

热门标签

人工智能 OCR识别证券 IT 计算机视觉训练平台银行驾驶证识别财务识别保险

1分快3首页

搜索

大模型技术在智能文档处◥理中的应用（下篇）

国内统一咨询服务热线

（早09:00 - 晚18:00）