当前位置:网站首页>【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
2022-08-03 17:17:00 【InfoQ】
2.发展历程与现状
2.1信息抽取技术发展历程
从历次MUC会议,可以清楚地看到信息抽取技术发展的历程。
- 1987年5月举行的首届MUC会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准,总共有6个系统参加,所处理的文本是海军军事情报,每个系统的输出格式都不一样。
- MUC-2于1989年5月举行,共有8个系统参加,处理的文本类型与MUC-1一样。MUC-2开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板填充的过程。
- MUC-3于1991年5月举行,共有15个系统参加,抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模板由18个槽组成。从MUC-3开始引入正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等。
- MUC-4于1992年6月举行,共有17个系统参加,任务与MUC-3一样,仍然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了,总共由24个槽组成。从这次会议开始MUC被纳入TIPSTER文本项目。
- MUC-5于1993年8月举行,共有17个系统参加:美国14个,英国、加拿大、日本各一个。此次会议设计了两个目标场景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外,MUC-5还对日语信息抽取系统进行了测试。在本次会议上,组织者尝试采用平均填充错误率(ERR, Error Per Response Fill)作为主要评价指标。与以前相比,MUC-5抽取任务的复杂性更大,比如公司合资场景需要填充11种子模板总共47个槽,光任务描述文档就有40多页。MUC-5的模板和槽填充规范是MUC系列评测中最复杂的。
- MUC-6于1995年9月举行,训练时的目标场景是劳动争议的协商情况,测试时的目标场景是公司管理人员的职务变动情况,共有16家单位参加了这次会议。MUC-6的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模板(Scenario Templates)填充任务外,又引入三个新的评测任务:命名实体(Named Entity)识别、共指(Coreference)关系确定、模板元素(Template Element)填充等。
- 最后一届MUC会议——MUC-7于1998年4月举行。训练时的目标场景是飞机失事事件,测试时的目标场景是航天器(火箭/导弹)发射事件。除MUC-6已有的四项评测任务外,MUC-7又增加了一项新任务——模板关系任务,它意在确定实体之间与特定领域无关的关系。共有18家单位参加了MUC-7评测。值得注意的是,在MUC-6和MUC-7中开发者只允许用四周的时间进行系统的移植,而在先前的评测中常常允许有6-9个月的移植时间。
- 1998年在MUC-7会议上第1次正式提出实体关系抽取任务。当时,这一任务主要利用模板的方式抽取出实体之间的关系,抽取的关系模板主要有location_of, employee_of, manufacture_of这三大类。在关系抽取方面,该会议主要以商业活动内容为主题,通过人工构建知识工程的方法,针对英语完成关系分类.研究人员利用Linguistic Data Consortium提供的New York Times News Service Corpus训练集和测试集构建关系抽取模型,并完成模型的性能评估。
2.2信息抽取技术的产业发展现状
- 李冬梅,张扬,李东远,林丹琼 .实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7)
- 李保利, 陈玉忠, 俞士汶. 信息抽取研究综述[J]. 计算机工程与应用, 2003, 39(10):6.
- ”Compact Survey on Event Extraction: Approaches and Applications“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
边栏推荐
- Promise的 简单使用
- 使用deepstream消息发送功能的时候,检测框没有检测标签,No text labels of bboxes displayed with osd for deepstream-test5
- 高效的组织信息共享知识库是一种宝贵的资源
- EMQX Newsletter 2022-07|EMQX 5.0 正式发布、EMQX Cloud 新增 2 个数据库集成
- 我想请问下,我们的数据库是在亚马逊,Dataworks 连不通,怎么办?
- 如何直击固定资产管理的难题?
- 生产环境如何删除表呢?只能在SQL脚本里执行 drop table 吗
- PMP备考敏捷考题的五点应对策略
- phoenix创建映射表和创建索引、删除索引
- 从MatePad Pro进化看鸿蒙OS的生态势能
猜你喜欢
面试突击:什么是粘包和半包?怎么解决?
茅台日赚1.65亿,经销商日子却越来越难
EasyExcel implements dynamic column parsing and table storage
Detailed explanation of setting HiSilicon MMZ memory and OS memory
软件测试<用例篇>
国内首发可视化智能调优平台,小龙带你玩转KeenTune UI
TiKV & TiFlash 加速复杂业务查询丨TiFlash 应用实践
大型企业数据治理的现状和解决方案有哪些参考?_光点科技
一键进入华为云会议,长期免费值得所有开发团队有一套【华为云至简致远】
node connection mongoose database process
随机推荐
[Unity Starter Plan] Making RubyAdventure01 - Player Creation & Movement
J9数字虚拟论:元宇宙的潜力:一股推动社会进步的力量
PMP备考敏捷考题的五点应对策略
被误解的 MVC 和被神化的 MVVM(二)
isNotBlank与isNotEmpty
383. Ransom Note
软考 --- 软件工程(1)概念、开发模型
大型企业数据治理的现状和解决方案有哪些参考?_光点科技
TiKV & TiFlash accelerate complex business queries丨TiFlash application practice
组件通信-父传子组件通信
TypeScript文件的编译执行
Async的线程池使用的哪个?
ICDAR比赛技术分享
Looking at the ecological potential of Hongmeng OS from the evolution of MatePad Pro
Big guys.Use flink-cdc-sqlserver version 2.2.0 to read sqlserver2008R
303. Range Sum Query - Immutable
PMP考试通关宝典-敏捷专题
【云驻共创】【HCSD大咖直播】亲授大厂面试秘诀
双指针/滑动窗口问题
Web3的开源为何会如此受到人们喜爱?