当前位置:网站首页>【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
2022-08-03 17:17:00 【InfoQ】
2.发展历程与现状
2.1信息抽取技术发展历程
从历次MUC会议,可以清楚地看到信息抽取技术发展的历程。
- 1987年5月举行的首届MUC会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准,总共有6个系统参加,所处理的文本是海军军事情报,每个系统的输出格式都不一样。
- MUC-2于1989年5月举行,共有8个系统参加,处理的文本类型与MUC-1一样。MUC-2开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板填充的过程。
- MUC-3于1991年5月举行,共有15个系统参加,抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模板由18个槽组成。从MUC-3开始引入正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等。
- MUC-4于1992年6月举行,共有17个系统参加,任务与MUC-3一样,仍然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了,总共由24个槽组成。从这次会议开始MUC被纳入TIPSTER文本项目。
- MUC-5于1993年8月举行,共有17个系统参加:美国14个,英国、加拿大、日本各一个。此次会议设计了两个目标场景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外,MUC-5还对日语信息抽取系统进行了测试。在本次会议上,组织者尝试采用平均填充错误率(ERR, Error Per Response Fill)作为主要评价指标。与以前相比,MUC-5抽取任务的复杂性更大,比如公司合资场景需要填充11种子模板总共47个槽,光任务描述文档就有40多页。MUC-5的模板和槽填充规范是MUC系列评测中最复杂的。
- MUC-6于1995年9月举行,训练时的目标场景是劳动争议的协商情况,测试时的目标场景是公司管理人员的职务变动情况,共有16家单位参加了这次会议。MUC-6的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模板(Scenario Templates)填充任务外,又引入三个新的评测任务:命名实体(Named Entity)识别、共指(Coreference)关系确定、模板元素(Template Element)填充等。
- 最后一届MUC会议——MUC-7于1998年4月举行。训练时的目标场景是飞机失事事件,测试时的目标场景是航天器(火箭/导弹)发射事件。除MUC-6已有的四项评测任务外,MUC-7又增加了一项新任务——模板关系任务,它意在确定实体之间与特定领域无关的关系。共有18家单位参加了MUC-7评测。值得注意的是,在MUC-6和MUC-7中开发者只允许用四周的时间进行系统的移植,而在先前的评测中常常允许有6-9个月的移植时间。
- 1998年在MUC-7会议上第1次正式提出实体关系抽取任务。当时,这一任务主要利用模板的方式抽取出实体之间的关系,抽取的关系模板主要有location_of, employee_of, manufacture_of这三大类。在关系抽取方面,该会议主要以商业活动内容为主题,通过人工构建知识工程的方法,针对英语完成关系分类.研究人员利用Linguistic Data Consortium提供的New York Times News Service Corpus训练集和测试集构建关系抽取模型,并完成模型的性能评估。
2.2信息抽取技术的产业发展现状
- 李冬梅,张扬,李东远,林丹琼 .实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7)
- 李保利, 陈玉忠, 俞士汶. 信息抽取研究综述[J]. 计算机工程与应用, 2003, 39(10):6.
- ”Compact Survey on Event Extraction: Approaches and Applications“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
边栏推荐
猜你喜欢
随机推荐
204. Count Primes
EMQX Newsletter 2022-07|EMQX 5.0 正式发布、EMQX Cloud 新增 2 个数据库集成
Understand the recommendation system in one article: Outline 02: The link of the recommendation system, from recalling rough sorting, to fine sorting, to rearranging, and finally showing the recommend
如何在 DataWorks 中 写SQL语句监控数据的变化到达一定的值 进行提示
【AppCube】零代码小课堂开课啦
【LeetCode】899. 有序队列
通用型安全监测数据管理系统
关于oracle表空间在线碎片整理
软考 --- 软件工程(1)概念、开发模型
Which thread pool does Async use?
【目标检测】Focal Loss for Dense Object Detection
关于 Intel 在 micro-vm 快速启动的探索及实例演示 | 第 36-38 期
Component communication - parent-child component communication
Web3的开源为何会如此受到人们喜爱?
【机器学习】机器学习的基本概念/术语2
J9货币论:数字经济为全球经济复苏注入力量
面试突击71:GET 和 POST 有什么区别?
阿里二面:没有 accept,能建立 TCP 连接吗?
组件通信-父传子组件通信
从MatePad Pro进化看鸿蒙OS的生态势能