当前位置:网站首页>论文阅读_ICD编码_MSMN
论文阅读_ICD编码_MSMN
2022-07-03 04:39:00 【xieyan0811】
介绍
英文题目:Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding
中文题目:自动ICD编码的同义词匹配网络
论文地址:https://export.arxiv.org/pdf/2203.01515.pdf
领域:自然语言处理、生物医疗
发表时间:2022
作者:Zheng Yuan等,清华大学,阿里巴巴
出处:ACL
代码和数据: https://github.com/GanjinZero/ICD-MSMN
阅读时间:2022.06.14
读后感
通过代入外部资源UMLS,论文收集了每个编码的同义词,从而弥补了电子病历与ICD编码描述中同义不同词的问题。
其算法并没有像之前一些模型那么精巧,但引入外部资源后,效果的确提升不少。
泛读
- 针对问题:ICD编码中一义多词问题
- 核心方法:
- 提出了多同义词匹配网络 (MSMN)
- 使用LSTM+多头注意力
- 将编码的同义词作为query以关注描述中的不同短语,从而生成与ICD编码相关的表示。
- 使用双仿射的ICD编码相似度的文本表示,用于最终分类。
- 泛读后理解程度:
- 半小时看完,半小时整理(这是一篇短文)
方法
ICD编码同义词
使用UMLS(一体化医学语言系统)知识图,对ICD编码描述进行扩展,首先,将代码描述l1与UMLS中的概念唯一标识符CUIs对齐;然后从UMLS中选择具有相同CUIs的英语术语同义词,并通过删除连字符和单词“NOS”来添加额外的同义词。从而对每个ICD编码生成 {l2,l3…lM} 文本,下面用N表示每个描述包含的单词个数。
编码
使用LSTM作为编码器,利用预训练的词向量将词wi映射成xi,使用d层的双向LSTM,将词嵌入作为输入,计算其隐藏层作为表示。
对同义词编码时,使用同样的编码器编码,然后用最大池化获取其表示:

多同义词注意力
受多头注意力的启发,文中使用了多同义词注意力,将隐藏层切分成M块(M头):

此时,使用编码同义词的表示qj来查询Hj,用Hj和qj的线性变换来计算注意力得分a;文本与代码同义词的相关编码可用Ha求得。聚合基于编码的文本表示v,当只需要与一个编码匹配时,使用

分类器
分类器用于判断文本S是否包含ICD编码l,基于前面计算的依赖编码的文本表示vl和编码的表示qj,使用双仿射变换来衡量分类的相似性。

之前很多模型只依赖编码,因此需要训练集中包含每种编码的实例,而这里的q是基于编码的文本表示,因此,学习的是文本之间的关系,与具体的代码无关。
训练
用交叉熵来计算预测概率与实际标签的差异:

边栏推荐
- I've seen a piece of code in the past. I don't know what I'm doing. I can review it when I have time
- Symbol of array element product of leetcode simple problem
- Why should programmers learn microservice architecture if they want to enter a large factory?
- 金仓数据库KingbaseES 插件kdb_database_link
- Leetcode simple problem delete an element to strictly increment the array
- Auman Galaxy new year of the tiger appreciation meeting was held in Beijing - won the double certification of "intelligent safety" and "efficient performance" of China Automotive Research Institute
- 2022 Shandong Province safety officer C certificate examination content and Shandong Province safety officer C certificate examination questions and analysis
- Solve BP Chinese garbled code
- Web security - CSRF (token)
- Small program animation realizes the running lantern and animation object
猜你喜欢

使用BENCHMARKSQL工具对KingbaseES预热数据时执行:select sys_prewarm(‘NDX_OORDER_2 ‘)报错

关于开学的准备与专业认知

Introduction of pointer variables in function parameters

Solve BP Chinese garbled code

Leetcode simple question: check whether two string arrays are equal

金仓KFS数据双向同步场景部署

Some information about the developer environment in Chengdu

逆袭大学生的职业规划

2022 P cylinder filling test content and P cylinder filling simulation test questions

C language series - Section 3 - functions
随机推荐
C Primer Plus Chapter 10, question 14 3 × 5 array
[Thesis Writing] how to write the overall design of JSP tourism network
Joint set search: merge intervals and ask whether two numbers are in the same set
Number of 1 in binary (simple difficulty)
FFMpeg filter
使用BENCHMARKSQL工具对kingbaseES执行灌数据提示无法找到JDBC driver
Asp access teaching management system design finished product
Triangular rasterization
普通本科大学生活避坑指南
2022 registration of G2 utility boiler stoker examination and G2 utility boiler stoker reexamination examination
[set theory] binary relationship (special relationship type | empty relationship | identity relationship | global relationship | divisive relationship | size relationship)
Employee attendance management system based on SSM
AWS VPC
2022-02-12 (338. Bit count)
MC Layer Target
C language self-made Games: Sanzi (tic tac toe chess) intelligent chess supplement
一名外包仔的2022年中总结
使用BENCHMARKSQL工具对kingbasees并发测试时kill掉主进程成功后存在子线程未及时关闭
Internationalization and localization, dark mode and dark mode in compose
2022 t elevator repair simulation examination question bank and t elevator repair simulation examination question bank