当前位置:网站首页>论文阅读_ICD编码_MSMN
论文阅读_ICD编码_MSMN
2022-07-03 04:39:00 【xieyan0811】
介绍
英文题目:Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding
中文题目:自动ICD编码的同义词匹配网络
论文地址:https://export.arxiv.org/pdf/2203.01515.pdf
领域:自然语言处理、生物医疗
发表时间:2022
作者:Zheng Yuan等,清华大学,阿里巴巴
出处:ACL
代码和数据: https://github.com/GanjinZero/ICD-MSMN
阅读时间:2022.06.14
读后感
通过代入外部资源UMLS,论文收集了每个编码的同义词,从而弥补了电子病历与ICD编码描述中同义不同词的问题。
其算法并没有像之前一些模型那么精巧,但引入外部资源后,效果的确提升不少。
泛读
- 针对问题:ICD编码中一义多词问题
- 核心方法:
- 提出了多同义词匹配网络 (MSMN)
- 使用LSTM+多头注意力
- 将编码的同义词作为query以关注描述中的不同短语,从而生成与ICD编码相关的表示。
- 使用双仿射的ICD编码相似度的文本表示,用于最终分类。
- 泛读后理解程度:
- 半小时看完,半小时整理(这是一篇短文)
方法
ICD编码同义词
使用UMLS(一体化医学语言系统)知识图,对ICD编码描述进行扩展,首先,将代码描述l1与UMLS中的概念唯一标识符CUIs对齐;然后从UMLS中选择具有相同CUIs的英语术语同义词,并通过删除连字符和单词“NOS”来添加额外的同义词。从而对每个ICD编码生成 {l2,l3…lM} 文本,下面用N表示每个描述包含的单词个数。
编码
使用LSTM作为编码器,利用预训练的词向量将词wi映射成xi,使用d层的双向LSTM,将词嵌入作为输入,计算其隐藏层作为表示。
对同义词编码时,使用同样的编码器编码,然后用最大池化获取其表示:
多同义词注意力
受多头注意力的启发,文中使用了多同义词注意力,将隐藏层切分成M块(M头):
此时,使用编码同义词的表示qj来查询Hj,用Hj和qj的线性变换来计算注意力得分a;文本与代码同义词的相关编码可用Ha求得。聚合基于编码的文本表示v,当只需要与一个编码匹配时,使用
分类器
分类器用于判断文本S是否包含ICD编码l,基于前面计算的依赖编码的文本表示vl和编码的表示qj,使用双仿射变换来衡量分类的相似性。
之前很多模型只依赖编码,因此需要训练集中包含每种编码的实例,而这里的q是基于编码的文本表示,因此,学习的是文本之间的关系,与具体的代码无关。
训练
用交叉熵来计算预测概率与实际标签的差异:
边栏推荐
- Truncated sentences of leetcode simple questions
- Kubernetes source code analysis (I)
- After reviewing MySQL for a month, I was stunned when the interviewer of Alibaba asked me
- Leetcode simple question: the key with the longest key duration
- 2022 a special equipment related management (elevator) analysis and a special equipment related management (elevator) simulation test
- JS multidimensional array to one-dimensional array
- Leetcode simple problem delete an element to strictly increment the array
- 使用BENCHMARKSQL工具对kingbasees并发测试时kill掉主进程成功后存在子线程未及时关闭
- Joint search set: the number of points in connected blocks (the number of points in a set)
- 第十九届浙江省 I. Barbecue
猜你喜欢
[pat (basic level) practice] - [simple simulation] 1063 calculate the spectral radius
Human resource management system based on JSP
Function introduction of member points mall system
MC Layer Target
MediaTek 2023 IC written examination approved in advance (topic)
How to choose cross-border e-commerce multi merchant system
Preliminary cognition of C language pointer
有道云笔记
2022 P cylinder filling test content and P cylinder filling simulation test questions
UiPath实战(08) - 选取器(Selector)
随机推荐
Use the benchmarksql tool to perform a data prompt on kingbases. The jdbc driver cannot be found
I've been in software testing for 8 years and worked as a test leader for 3 years. I can also be a programmer if I'm not a professional
Priv app permission exception
【SQL注入】联合查询(最简单的注入方法)
[dynamic programming] subsequence problem
智能合约安全审计公司选型分析和审计报告资源下载---国内篇
IPhone x forgot the boot password
Contents of welder (primary) examination and welder (primary) examination in 2022
UiPath实战(08) - 选取器(Selector)
金仓数据库KingbaseES 插件kdb_date_function
Human resource management system based on JSP
GFS distributed file system (it's nice to meet it alone)
怎么用Kotlin去提高生产力:Kotlin Tips
[set theory] Cartesian product (concept of Cartesian product | examples of Cartesian product | properties of Cartesian product | non commutativity | non associativity | distribution law | ordered pair
A outsourcing boy's mid-2022 summary
[luatos sensor] 1 light sensing bh1750
Preliminary cognition of C language pointer
Dive Into Deep Learning——2.1数据操作&&练习
Drf--- quick start 01
2022-02-14 (394. String decoding)