一分赛车网址

  • <tr id='5SQtG2'><strong id='5SQtG2'></strong><small id='5SQtG2'></small><button id='5SQtG2'></button><li id='5SQtG2'><noscript id='5SQtG2'><big id='5SQtG2'></big><dt id='5SQtG2'></dt></noscript></li></tr><ol id='5SQtG2'><option id='5SQtG2'><table id='5SQtG2'><blockquote id='5SQtG2'><tbody id='5SQtG2'></tbody></blockquote></table></option></ol><u id='5SQtG2'></u><kbd id='5SQtG2'><kbd id='5SQtG2'></kbd></kbd>

    <code id='5SQtG2'><strong id='5SQtG2'></strong></code>

    <fieldset id='5SQtG2'></fieldset>
          <span id='5SQtG2'></span>

              <ins id='5SQtG2'></ins>
              <acronym id='5SQtG2'><em id='5SQtG2'></em><td id='5SQtG2'><div id='5SQtG2'></div></td></acronym><address id='5SQtG2'><big id='5SQtG2'><big id='5SQtG2'></big><legend id='5SQtG2'></legend></big></address>

              <i id='5SQtG2'><div id='5SQtG2'><ins id='5SQtG2'></ins></div></i>
              <i id='5SQtG2'></i>
            1. <dl id='5SQtG2'></dl>
              1. <blockquote id='5SQtG2'><q id='5SQtG2'><noscript id='5SQtG2'></noscript><dt id='5SQtG2'></dt></q></blockquote><noframes id='5SQtG2'><i id='5SQtG2'></i>
                首页
                核心技术
                产品体系
                解决方案
                动态资讯
                关于我们
                搜索
                首页 动态资讯 行业资讯

                浅谈智能文档处理技术与应用

                来源:易道博识 发布时间:2023-04-26
                智能文档处理介绍
                智能文档处理(IDP)是利用人工智能技术,自动从复杂的非结构化和半结构化文档中抽取关键数据,并将其转换成结构化数据的技术。IDP又称为认知数据处理(Cognitive Data Processing)或智能㊣ 数据捕获(Intelligent Data Capturing)技术。
                众所周知,商业数据是企业数字化转型的核心。然而,现实中80%的商业数据都是非结构化格式,比如邮件、图片和各种企业文档,其中非结构化文档占据了绝大多数。据统计,到2025年,全球企业数据总量将达到175ZB。借助于IDP技术,企业能够实现文档自动化处理、文档语¤义理解、智↓能审核和数据智能分析等方面的功能,提升企业用户文档处理的效率和质量,为企业降本增效。
                智能文档处理难点
                从文档的结构特点上,我们可以将现实世界的文档划分为结构化、半结构化和非结构化三种类型。对应到版式特∞征上,分别是固定版式、多版式和开放版式三种类型。
                结构化文档◥具有版式固定的特点,同一类型不同样本之间①没有差异,如固定版式的信息采集表、申请文件等。半结构化文档版式相对固定,或称为多版式文档,同一类型不同样本之间关键内容相同,但是往往内容出现的位置却不同,如不同供应商采购☉的送货单,每个供应商都不同,但是其关键内容都包含订单号、商◣品信息等。
                非结构化文档又称为开放版式文档,通常没有显著的版式特征,几乎是纯文本表达,虽然表达的内容相同,但是表达方式却差异很大。常见的如合同、简历、招标文件等。
                对于结构化∴和半结构化文档,由于版式相对固定,当前行业内普遍的做法是通过模板或深度学习模型的方法,完成分类和信息抽取等自动化处理,已经能够解决大多数应用场景的问题。但是,开放版式文档,由于其天然的诸多难点,给智能文档处理带来了很大的困难。如下表,是我们归纳的开放版式文档处理的主要难点。


                表1 开放版式文〇档特点

                智能文档处理核心技术
                如表1,相比于纯文本或固定和多版式文档,开放版式文档处理具有诸多难点。因此,智能文档处理过程必须综合应用计算机∩视觉(CV)、光学字符处∩理(OCR)、文档解析、自然语言处理(NLP)和文档信息抽取等关键技术,才能更好地实现自动化和智能化处理。
                计算机视觉(CV)技术

                CV技术主要是对于文档图像进行各种图像处理,常见如图像去噪声、去干扰、图像增强、图像压缩、图像分割等。其处理目的主要是为后续OCR环节提供高质量的图像输入,以提升OCR的性能。同时,利用图像检测和分割等技术,可以实现文档物理☆版面解析。

                • 光学字符处理(OCR)技术

                OCR是将纸质文档、图片等非数字化文件中的文字内容转换为数字化格式的技术。当前主流实现上,借助表格识别、印章识别、勾选和二维码识别等技术,在OCR环节可以实现图像ζ中所有通用对象(文字、表格、印章、勾选、二维码、签名等)的统一识别和输出,作为后续智能化文档处理环节的输入。

                • 文档解析技术

                文档解析是在文档协议解析或OCR处理的结果上,通过版面分析、表格解析等技术,实现文档物理和逻辑结构的解析,得到文档内容的统一表示。以此作为进一★步文档分类、信息抽取ω 和文档比对等处理的输入。IDP通常需要能够支持所有格式的文档输入,包括图片、PDF、Word、OFD等,因此,文档解析环节需要能够解析以『上各种格式的输入文件,将其转换成统一的表示形式,如JSON文件。

                • 自然语言处理(NLP)
                NLP是一种利用计算机技术对自然语言进行※分析和处理的技术,常见的NLP任务包括分词、词性标注、句法分析、语义分析、文本分类、信息抽取、文档摘要、情感分析等。IDP中主要使∮用的NLP技术ぷ包括文本分类、文本信息抽取、语义理解等。通常的做法是将OCR输出或文档协议解析后的所有文本块进行拼接,得到文本序列,再通过文本分【类、信息抽取等技术,实现文档的分类和信息抽取。另外,通过NLP技术,也可以对文档〓进行自动摘要、情感分析和智能问答等处理。
                • 文档信息抽取
                相比于纯文本,文档的最大特点是其富格式特点。因此,文档中信息抽取必须依赖于版面位置等视觉特征,比如从文档中的图表或表格中抽取信息,或者从←特定版面位置区域的结构化信息块中抽取信息。相比于简单地从大段文本序列中做信息抽取,文档信息抽取技术难度更大。
                智能文档处理流程
                如下图,是智能文档统一处理流程。

                图1 智能文档处理流程

                主要包含以下环节:
                • 文档预处理
                该步骤主要针对Word、PDF等文档协议进行解析处理。
                • OCR
                通过通用OCR识别模型,对输入的文档图像上的╱文字、印章、签名、表格等通用要素进行识别,得到文本和位置,以及表格结构化数据。
                • 版面分析
                利用版面分析技术,定位ω出文档图像上所有的标题、段落、表格、图表、页眉、页脚等版面信息。再利用标题和段落等信息,做文档逻辑结构分析,得到文档结构。
                • 信息抽取
                基于版面和目录分析的结果,结合文档协议解析或OCR的结果,利用自然语言处理等技术,进行文档关键信息抽取。
                • 信息校验
                利用预设的规则,对抽取出的@ 信息进行校验,包括数据格式检查、预设的审阅规则检查等。
                智能文档处∏理应用场景
                主要的智能文档处理应用场景包括:
                • 分类和标签化
                通过智能文档处理技术,可以对大量文档进行分类和标签化,从而实现文档的快◆速检索、内容推荐和归档处理等功能。
                • 信息抽取
                智能文档处理可以帮助从文档中抽取关〓键信息,如关键的短语、实体、事件等。这些信息在知识图谱构建、智能搜索、智能比对、智能问答等应用场景中具有重要的价值。
                • 摘要与生成
                利用智能文档处理技术,可以对文档进行自动摘要,生成简洁、精炼的摘要内容↘。此外,还可以根据用户输入的¤关键词或短语生成特定主题的文章,以满足用户需求。
                • 问∏答与对话
                通过智能文档处理技术,可以构建智能问答系统,为用户提供及时准确的文档内容信息。
                未来随着大模型等人工智能技术的不断发展,智能文档处理将会在各个行业的应用场景中不断普及化。
                赛博智能学习平台智能▲文档处理
                赛博智能学习平台定位于一体化机器学习训练平台,集成了对于结构化和非结构文档的智能化处理功能,包括智能文档分类、文档解析和文档信息抽取等。能够支持合同、法律文书、招投标文件等各种开放▃版式长文档的智能化处理。基于平台自定义模板和自训练模型能力,通过现场模板定制、模型标注训练的方式,能够形成即时可用的文档AI能力。
                如下图,是赛博智能学习平台智能文档处理的基本流程。


                图2 赛博智能学习平台智能文档处理流程

                未来,易道博识将继续针对金融、能源、通信等行业客户,在业々务运营、审核和监督管理、信息检索和风险管理等场景下,围绕数字化、自动化和智能化需求,依托赛博智能学习平台,为企业打造强大AI底座,助力企ξ 业建设基于AI模型全生命周期的标准化、一体化生产运营体系。
                赛博智能学习平台以私有化部署、现场训练的形式满足客户对数据安全要求,通过与业务系统深度融合,满足各业务场景在图像处理、OCR、智能文档处理和NLP等方向需求。
                赛博智能学习平台持续将AI大模型等前沿技术与行业数据深度结合,在技术与业务场景之间搭桥铺◇路,让AI技术快速在场景№中落地,在应用场景中产生价值,带动产业发展和升级。
                在线留言