真正的黑科技技术视频 (到底是怎样的黑科技呢)

你能回答下面的问题吗?当然,如果你的英文还可以,看图回答还是不难的。

比如第一行中第二个关于签名的图和问题:“谁签署了这份文件?Kurt的签名字迹容易辨认吗?”根据图片内容,答案很明显——Kurt签署了这份文件,他的签名不太好辨认。

再比如第三行第一个关于复选框的问题:“该组织是公司吗?标有no的复选框被选中了吗?”根据图片所示,该组织是公司,标有no的复选框没有被选中。

黑科技是怎样的,真正的黑科技技术视频

作为有视力、有智慧的人类,要完成这样的看图回答问题,应该说很容易。但机器能做到吗?

文档视觉问答技术

这样的技术被称为文档视觉问答技术(Document Visual Question Answering),是人工智能领域重要的研究方向之一。

近日,国际文档分析与识别大会(ICDAR)举办的2023 Robust Reading Competitions比赛结果揭晓,这是文档分析与识别领域非常有影响力的一项国际赛事。目前已有150多个国家的4万多支团队在过去的比赛中参加过竞逐,包括Google、微软、腾讯、阿里巴巴、百度、三星、商汤、海康等科技公司,有力地推动了文档及OCR领域的技术发展。

该比赛包含多种竞赛任务,今年,联想研究院智慧教育与未来交互实验室参加了其中一项极具挑战性的任务——Document Understanding of Everything, 也就是刚才提到的文档视觉问答技术相关的任务 ,最终联想研究院击败其他参赛团队、勇夺冠军!

黑科技是怎样的,真正的黑科技技术视频

联想研究院研发的、融合了大模型技术的DocGptVQA方法ANLS分数为0.5002,高居参赛团队榜第一名。

该比赛任务的主要目标是融合计算机视觉及自然语言技术,对跨模态文档的图像进行扫描,以获取文本和文档布局信息,再结合对文本问题的语义理解,利用 多模态技术 学习图文的关联性、精准定位相关图像信息,从而实现对文档中提出的问题自动回答。本文一开始出现的图片,即是本次比赛数据的样本图像。

此次 Document Understanding of Everything比赛,顾名思义,需要对各种类型、领域和来源的文档进行全面理解。与之前的文档理解比赛不同的是,本次比赛引入了新的任务要求,从简单的单页文档问题转变为复杂的图文混合、跨领域的多页文档问答。竞赛中的数据都是真实的文档,包括信件、操作手册、图表、PPT等不同类型的文档。这些文档不仅在版面结构上非常多样,还存在文档质量低等问题。

此外,问题类型也涵盖了抽取式、生成式等多种形式。因此,模型需要充分利用文档的布局、字体、颜色等视觉信息,并具备多步推理的能力,这使得任务难度远超过前几届的文档问答竞赛。

关于“抽取式”和“生成式”问题类型,还是以数据样本图像中第一行第二个关于签名的图和问题为例。“谁签署了这份文件?”这个问题的答案可以在图片中直接找到,属于“抽取式”问题;“Kurt的签名字迹容易辨认吗?这个问题的答案无法直接在图片中获得,需要推理,所以这个属于难度更高的“生成式”问题。

联想文档视觉问答技术优势

ChatGPT横空出世,它所表现出来的强大的人工智能能力,让无数人叹为观止。联想研究院敏锐地将最新的大模型技术与文档视觉问答模型UDOP相结合,创新性地提出了将ChatGPT作为文档理解任务的调度管理器的方案,并设计了prompt挖掘其思维链COT Prompt和In Context Learning能力,从而辅助解决了多页文档中的复杂推理问题。

同时,我们对Blip2多模态预训练大模型进行微调,并引入光学字符识别(OCR)语义检索模块,将通用领域的大模型知识迁移到文档领域,从而加强模型对细粒度视觉特征的理解,同时关注语义特征。

此外,由于竞赛中数据版面类型多样,基于团队多年来在OCR领域的技术积累,联想研究院参赛团队采用了内部研发的版面识别和版面分析技术,来解决复杂文档布局理解的问题,以提升文档视觉问答模型的效果。

这些核心技术都是联想在此次比赛中夺冠的关键所在。

行业场景应用

近期,我们基于此次比赛中的文档视觉问答(VQA)的技术,搭建了“ 基于本地知识库的多模态文档问答系统 ”,它能够对用户提出的问题,自动从本地知识库中寻找答案,并显示输出。该系统能够帮助用户高效查阅文档、快速定位答案,极大简化了文档密集型工作的流程,推动了办公自动化的进一步发展。

例如,用户想使用该系统来查询某公司2022年的销售数据。系统会自动从存储在本地的所有图片或者PDF格式的文件中,搜索到相关的文档,并利用比赛中提到的文档视觉问答技术,深度解析非结构化文档中复杂的排版、图文和图表内容,精准地定位到问题的答案。最终,系统找到了名为"2022年度销售报告"的文档,并提供了以下答案:

“xx公司去年总销售额为1,000,000美元。销售额最高的产品是产品A,销售额为500,000美元。”