当前位置:网站首页>论文阅读_医疗NLP模型_ EMBERT
论文阅读_医疗NLP模型_ EMBERT
2022-07-05 17:16:00 【xieyan0811】
英文题目:EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining
中文题目:中文医学文本挖掘的预训练语言模型
论文地址:https://chywang.github.io/papers/apweb2021.pdf
领域:自然语言处理,知识图谱,生物医疗
发表时间:2021
作者:Zerui Cai等,华东师范大学
出处:APWEB/WAIM
被引量:1
阅读时间:22.06.22
读后感
针对医疗领域,利用知识图中的同义词(只使用了词典,未使用图计算方法),训练类似BERT的自然语言表示模型。优势在于代入了知识,具体设计了三种自监督学习方法来捕捉细粒度实体间的关系。实验效果略好于现有模型。没找到对应代码,具体的操作方法写的也不是特别细,主要领会精神。
比较值得借鉴的是,其中用到的中文医疗知识图,其中同义词的使用方法,AutoPhrase自动识别短语,高频词边界的切分方法等。
介绍
文中方法致力于:更好地利用大量未标注数据和预训练模型;使用实体级的知识增强;捕捉细粒度的语义关系。与 MC-BERT 相比,文中的模型更注重探索实体间的关系。
作者主要针对三个问题:
- 同义不同词,比如: 结核病 与 痨病 指的是同一疾病,但文本描述不同。
- 实体嵌套,比如:新型冠状病毒肺炎,既包含肺炎实体,又包含新型冠状病毒实体,自身也是一个实体,之前方法只关注了整个实体。
- 长实体误读,比如:糖尿病酮酸,解析时需要关注主实体与其它实体的关系。
文章贡献如下:
- 提出了中文医疗预训练模型 EMBERT(Entity-rich Medical BERT),可学习医学术语的特征。
- 提出三种自监督任务捕捉实体层面的语义相关性。
- 使用六个中文医疗数据集评测,实验证明效果好于之前方法。
方法

实体上下文一致性预测
利用从http://www.openkg.cn/的知识图中取到的 SameAs 关系建立词典,用同义词替换数据集中的词构造更多训练数据,再预测被替换的实体与上下文的一致性,以提升模型效果。原理上,被替换的实体和原有实体的上下文也应具有一致性。
假设一个句子包含字x1…xn,替换了其中的第i个实体 xsi,…xei,其中s和e表示替换的起止位置,其上下文指的是位置在si之前和si之后的内容,用ci表示。
首先,将替换后的实体编码为向量 yi:

然后,利用 yi 来预测上下文 ci,并计算损失函数:

实体切分
使用基于规则的系统将长实体切分成几部分语义,并打标签,再用标注数据训练模型。
具体方法是建立一个实体词表,从训练集中获得一批高质量的医疗领域实体,与知识图中实体结合。先用AutoPhrase生成原始切分结果,计算每个片段开始和结束位置的频率,对top-100高频词手动检查,作为切分集。
设长实体为xsi,…,xei,将其进一步切分xeij,…,xeij,并将切分后小段的最后一个位置xsij作为切分点打标签为1,其它位置标签为0,训练模型来预测这个标签,将其定义为一个二分类问题。公式中的 y 是该位置token的向量表示。

损失函数计算如下:

双向实体遮蔽
利用上一步方法,可把长实体分成形容词和元实体(主要的实体),遮蔽形容词,使用主实体预测它;相对的,也遮蔽主实体,用形容词预测它。
以遮蔽元实体为例,利用形容词和相对位置p来计算元实体的表示:

然后利用 yj 来预测 xj,并计算交叉熵作为损失函数:

用元实体预测预测形容词也是同理,最后得到的损失函数Lben是两种损失的加和。
损失函数
最终的损失函数,包含BERT的损失Lex和上述三种方法的损失,λ是超参数。

实验
使用丁香园医疗社区问答及BBS数据训练模型,数据量5G,文中使用的训练数据明显少于MC-BERT,但效果与之相似。
主实验效果如下:

边栏推荐
- Check the WiFi password connected to your computer
- 北京内推 | 微软亚洲研究院机器学习组招聘NLP/语音合成等方向全职研究员
- QT控制台打印输出
- How to write a full score project document | acquisition technology
- Cartoon: looking for the k-th element of an unordered array (Revised)
- Webapp development - Google official tutorial
- mysql5.6解析JSON字符串方式(支持复杂的嵌套格式)
- Tita 绩效宝:如何为年中考核做准备?
- URP下Alpha从Gamma空间到Linner空间转换(二)——多Alpha贴图叠加
- 一文了解Go语言中的函数与方法的用法
猜你喜欢

Short the command line via jar manifest or via a classpath file and rerun

Beijing internal promotion | the machine learning group of Microsoft Research Asia recruits full-time researchers in nlp/ speech synthesis and other directions

Rider 设置选中单词侧边高亮,去除警告建议高亮

winedt常用快捷键 修改快捷键latex编译按钮

ICML 2022 | Meta提出鲁棒的多目标贝叶斯优化方法,有效应对输入噪声
SQL删除重复数据的实例教程
Summary of optimization scheme for implementing delay queue based on redis

Rider set the highlighted side of the selected word, remove the warning and suggest highlighting

mongodb(快速上手)(一)

基于51单片机的电子时钟设计
随机推荐
MySQL queries the latest qualified data rows
漏洞复现----48、Airflow dag中的命令注入(CVE-2020-11978)
To solve the problem of "double click PDF file, pop up", please install Evernote program
CMake教程Step3(添加库的使用要求)
机器学习01:绪论
How MySQL uses JSON_ Extract() takes JSON value
How to write a full score project document | acquisition technology
Debug kernel code through proc interface
漫画:如何实现大整数相乘?(上) 修订版
mysql5.6解析JSON字符串方式(支持复杂的嵌套格式)
ThoughtWorks global CTO: build the architecture according to needs, and excessive engineering will only "waste people and money"
服务器配置 jupyter环境
Force deduction solution summary 1200 minimum absolute difference
一文了解Go语言中的函数与方法的用法
Oracle Recovery Tools ----oracle数据库恢复利器
Winedt common shortcut key modify shortcut key latex compile button
普通程序员看代码,顶级程序员看趋势
请问下为啥有的表写sql能查到数据,但在数据地图里查不到啊,查表结构也搜不到
查看自己电脑连接过的WiFi密码
How to save the trained neural network model (pytorch version)