凤凰手机彩票

<i id='BK9knA'></i>

_{<blockquote id='BK9knA'><q id='BK9knA'><noscript id='BK9knA'></noscript><dt id='BK9knA'></dt></q></blockquote><noframes id='BK9knA'><i id='BK9knA'></i>}

首页动态资讯行业资讯

大模型技术在智能文档处理中的应用（下篇）

来源：易道博识发布时间：2023-06-15

一ω个专业的IDP系统至少需要具备如下两方面的能力，才能够满足富格式文档的智能化处理需求。

具备多模态信息处理能力

由于文档本身多模态的特点，决定了IDP系统必须能∮够综合应用计算机视觉和自然语言处理等技术，包括图像处①理、OCR、表格识别、文档解析、文本分析、文◥本理解等，对于文档中的标题、段落、表格、图表、印章、签名等多模态信息进行识别、提取和进一步的理解和分析。

具备领域样本高效学习能力

由于不同领域的文档特征差异很大，为了在领域数据上达到业务可用的精度要求，IDP系统必须具备☉领域样本高效学习能力，能够生成优化后的模型，满足业务场景应用需求，为实际业务创◆造价值。

多模态能力和领域学习能力等方面的要求，决定了通用IDP系统是一个复杂的综合性软件系统，对于技术架构和系统设计提出了很高的要求。架构上，IDP系统需要能够兼容各种深度学习框架，并能够对于各种预训练大模型、多模态预置∴模型和用户自训练的领域模型实现有效的模型治理。并且，能够以统一的模型能力层，向文档应用层提供接口，满足上层智能化应用的调用需求。

大语言模型在智能文档处理中的价值与挑战

如下图，是一个常见的IDP系统模型技术栈。可以看出，LLMs仅仅是在自然语言文本这个模态上，作为预训练基础模型（如红色高亮部分）。相比于文卐本领域的处理能力，IDP系统中更加核心的功能在于文档图像和多模态信息的综合处理能力，包括OCR、表格识别、印章识别，以及文档分类、信息检索和文档抽取等。

图2 IDP模型技术栈

因此，对于IDP系统，大语言模型主要作用是帮助提升文档文本的理解和生成能∑　力，尚无法完全替代IDP模型技术栈。

大语言模型在IDP系统的主要应用包括：

提升文档分类精度

利用大语言模型强大的文本理解能力，提升文档中文本信息的分类能力，如段落和☆条款，进而提升文档信息检索和文档分类的效果。

提供文档知识问答能力

相比于BERT等大ξ语言模型，GPT大模型具备生成式的特点，能够更好满足文档知识实时问答的应用，帮助实现诸如“与你的文档聊天”等应用功能〓。

提升信息抽取精度

大语言模型在文本信〖息抽取方面具备强大的能力，如从特定条款或段落中抽取实体、关系和事件，帮助提升文档关键信息抽取能ξ　力。

提升条款和段落比对精度

利用大语言模型强大的理解能力，能够提升文档中不同条款、段落之间，以及与标ω　准条款和段落的比对精度，改善文档比对效果。

大语言模型在帮助提升IDP文本处】理能力的同时，也面临诸多挑战和风险，主要包括：

模型输入长度有限，长文档处理能力受限

GPT-4具有最大32K Token输入和25K Word输入的要求，限制了对于长文档的处理能力，如几十上百页的合同和报告文件。这就要求必须通过前置的信息检索或段落抽取等预处理，提取出大篇幅文档中的相关部分，再输入大模型进行后续任务处理。

生成式特点，导致模型输出无法溯源，准确性差

不同于BERT等大模型，GPT(Generative Pre-trained Tranformer)模型属于生成式语言模型，对于模型输出的信息无法进行精准溯源，即很多情况下无法准确获得【输出内容在文档中的具体位置，这就增加了输出的风险性。在对于模型精准度要求高的场景下，如金融业务场景，往往极小概率的风险也会带来巨大的损失。因此，就需要通过模型优化和后处理等方法进行有效规避，避免非法输出问题。

领域知识匮乏，影响模型◤效果

上文提到，文档的一大特征在于其领域信息的多样性和差异性。通用大语言模型通常基于公开的互联网语料训练获得，包括维基百科、新闻文章、社交媒体等，因此，缺乏对于领域知识的深度学习和理解。实际应▆用中，必须结合领域数据基于预训练语言模型进行学习和调优，以达到实际业务■场景的使用要求，这也是IDP系统必须具备高效学习能力的根本原因。

模型参数量巨大，对算力要求高

大模型通常具备较大的参数规模，如GPT-3.5有1750亿参数，对于本地化和私有化部署场景下的算力成本具有很高的要求。因此，这些ㄨ场景下，必须进行模型轻〒量化处理才能真正落地使用，如通过知识蒸馏和模型量化等技术。

赛博结合大模型技术打造高效学习能力，提供IDP全新解决方案

赛博智能学习平台定位于一站式机器学习平台，基于预置的多模态能力和高效的领域□　数据学习能力，支持对于图片和文档等非结构化数据的智能化处理。在预置多模态卐能力的基础上，提供高效的领域数据学习能力，是赛博平台智能文档处理的核心优势。如下图，是关于赛博平台智能文档处理的核心能力介绍。

图3 赛博平台智能文档处理核心能力

主要的预置多模态能力包括：

图像处理

提供通用文档图像◎检测、区域分割和矫正、文档图像质量检测（模糊、反光、遮挡、拍屏、水印、复印、篡改、变形、切边和距离远等）、干扰和噪声↙去除等预置能力。

OCR

提供通用和场景OCR功能。通用OCR支持对于常见的文档图像要素的识别，包括文本（打印、手写、多语言）、表格、印章、勾选和签名等。场景OCR功能支持超过50种场景文档图像的识别能力，涵盖标准卡证、票据、表单和凭＠证。

文档处理

提供通用的文档处理能力，包括文档格式转换、协议解析、版面分析、文档解析等，以及合同等场景文档抽取能力。

自然语言处理

提供基础的自然语言处理功能，包括文本分类、信息抽取、通用问答、情感分析等。

如前节所述，文档具有领域特征差异大的特点，主要表现在不同领域文档◤之间在种类、版式、语料和表达方式等方面存在较大差异。因此，高效的领域文档学习能力，是IDP系统必备的基本功能，这█也是赛博平台的核心功能之一。如下图是关于赛博平台高效学习能力的原理介绍。

图4 赛博学♀习能力

赛博平台IDP学习能力以大规模语言模型和文档版式预训练模型为基础，通过下游任务中/小模型算法设计，结合领域数据，高效生成场景模型，并通过一键式模型部署和API生成，输出场景化≡AI能力，如文档分类、信息检索、文档抽取、段落比对等。依托机器学习功能底座，赛博平台能够提供文档数据集标注、模型训练、模型部署和API应用等一体化操作功能，支持用户通过可视化页面，高效完成领域文档数据←的学习和模型能力▓的输出与应用。

另外，为了更好地满足业务场景需求，实现与业务深度融合，赛博平台支持模型输出规则和API代码补丁定制，能够在线实现模型输出格式转换、字段拆分与合并、噪声剔除以及其他高级后处理功能，有效解决模型输出与业务需求之间“最后一№公里”的问题。

未来，易道博识将继续立足于金◇融、能源、通信等行业，围绕企业在日常业务运营、审核和监督管理↑、信息检索和风险管控等场景下的数智化转型需求，依托赛博智能学习平台底座，在满足客↓户数据安全的前提下，通过高效学习能力，将大模型等前沿技术与客户业务数据相结合，发挥巨大〖效能，通过与业务场景的深度融合，为业务赋能。

上一篇：易道博识入选“第六届数字金融创新大赛——2023数字金融创新先锋榜”

下一篇：大模型技术在智能文档处理中的应用（上篇）

返回列表

更多资讯

易道博识OCR智能识别方案，助力金融业降本增效

热门标签

人工智能 OCR识别证券 IT 计算机视觉训练平台银行驾驶证识别财务识别保险

凤凰手机彩票

搜索

大模型技术在智能文档处理中的应用（下篇）

国内统一咨询服务热线

（早09:00 - 晚18:00）