当前位置:网站首页>【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
2022-08-03 17:17:00 【InfoQ】
2.发展历程与现状
2.1信息抽取技术发展历程
从历次MUC会议,可以清楚地看到信息抽取技术发展的历程。
- 1987年5月举行的首届MUC会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准,总共有6个系统参加,所处理的文本是海军军事情报,每个系统的输出格式都不一样。
- MUC-2于1989年5月举行,共有8个系统参加,处理的文本类型与MUC-1一样。MUC-2开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板填充的过程。
- MUC-3于1991年5月举行,共有15个系统参加,抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模板由18个槽组成。从MUC-3开始引入正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等。
- MUC-4于1992年6月举行,共有17个系统参加,任务与MUC-3一样,仍然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了,总共由24个槽组成。从这次会议开始MUC被纳入TIPSTER文本项目。
- MUC-5于1993年8月举行,共有17个系统参加:美国14个,英国、加拿大、日本各一个。此次会议设计了两个目标场景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外,MUC-5还对日语信息抽取系统进行了测试。在本次会议上,组织者尝试采用平均填充错误率(ERR, Error Per Response Fill)作为主要评价指标。与以前相比,MUC-5抽取任务的复杂性更大,比如公司合资场景需要填充11种子模板总共47个槽,光任务描述文档就有40多页。MUC-5的模板和槽填充规范是MUC系列评测中最复杂的。
- MUC-6于1995年9月举行,训练时的目标场景是劳动争议的协商情况,测试时的目标场景是公司管理人员的职务变动情况,共有16家单位参加了这次会议。MUC-6的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模板(Scenario Templates)填充任务外,又引入三个新的评测任务:命名实体(Named Entity)识别、共指(Coreference)关系确定、模板元素(Template Element)填充等。
- 最后一届MUC会议——MUC-7于1998年4月举行。训练时的目标场景是飞机失事事件,测试时的目标场景是航天器(火箭/导弹)发射事件。除MUC-6已有的四项评测任务外,MUC-7又增加了一项新任务——模板关系任务,它意在确定实体之间与特定领域无关的关系。共有18家单位参加了MUC-7评测。值得注意的是,在MUC-6和MUC-7中开发者只允许用四周的时间进行系统的移植,而在先前的评测中常常允许有6-9个月的移植时间。
- 1998年在MUC-7会议上第1次正式提出实体关系抽取任务。当时,这一任务主要利用模板的方式抽取出实体之间的关系,抽取的关系模板主要有location_of, employee_of, manufacture_of这三大类。在关系抽取方面,该会议主要以商业活动内容为主题,通过人工构建知识工程的方法,针对英语完成关系分类.研究人员利用Linguistic Data Consortium提供的New York Times News Service Corpus训练集和测试集构建关系抽取模型,并完成模型的性能评估。
2.2信息抽取技术的产业发展现状
- 李冬梅,张扬,李东远,林丹琼 .实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7)
- 李保利, 陈玉忠, 俞士汶. 信息抽取研究综述[J]. 计算机工程与应用, 2003, 39(10):6.
- ”Compact Survey on Event Extraction: Approaches and Applications“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
边栏推荐
猜你喜欢

IP属地如何高效率识别

JSON.stringify()的深入学习和理解

JVS低代码-多数据模型与数据联动配置举例

【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十一)

融云「音视频架构实践」技术专场【内含完整PPT】

J9数字虚拟论:元宇宙的潜力:一股推动社会进步的力量

TiKV & TiFlash 加速复杂业务查询丨TiFlash 应用实践

Detailed explanation of setting HiSilicon MMZ memory and OS memory

通用型安全监测数据管理系统

论文解读(JKnet)《Representation Learning on Graphs with Jumping Knowledge Networks》
随机推荐
TiKV & TiFlash 加速复杂业务查询丨TiFlash 应用实践
被误解的 MVC 和被神化的 MVVM(二)
uniapp 去掉默认导航栏
并发高的情况下,试试用ThreadLocalRandom来生成随机数
被误解的 MVC 和被神化的 MVVM(一)
【数据库数据恢复】SqlServer数据库无法读取的数据恢复案例
After using Stream for many years, does collect still have these "saucy operations"?
【机器学习】机器学习基本概念/术语3
我想请问下,我们的数据库是在亚马逊,Dataworks 连不通,怎么办?
Halcon 小笔记 C# 图片是否有效
酷开科技 × StarRocks:统一 OLAP 分析引擎,全面打造数字化的 OTT 模式
设置海思芯片MMZ内存、OS内存详解
一键进入华为云会议,长期免费值得所有开发团队有一套【华为云至简致远】
通俗理解apt-get 和pip的区别是什么
ThreeJS简介
Web3 安全风险令人生畏?应该如何应对?
#yyds干货盘点# 面试必刷TOP101:两个链表的第一个公共结点
Web3的开源为何会如此受到人们喜爱?
TypeScript文件的编译执行
isNotBlank与isNotEmpty