当前位置:网站首页>阿里云天池大赛赛题解析(深度学习篇)--阅读笔记1--赛题一
阿里云天池大赛赛题解析(深度学习篇)--阅读笔记1--赛题一
2022-07-28 16:33:00 【jsBeSelf】
阿里云天池大赛赛题解析(深度学习篇)–阅读笔记1
[x]表示遇到不懂的知识,将在【知识补充】给出具体讲解。
文章目录
前言
如果说机器学习主要解决大数据的应用问题,那么深度学习的出现,则开始解决机器感知问题。提示:以下是本篇文章正文内容,下面案例可供参考
赛题一 瑞金医院MMC人工智能辅助构建知识图谱
本赛题将对知识图谱构建环节[1]中的重要技术—实体识别,进行详细讲解。
背景
糖尿病患者多,病因复杂,表现出的症状多种多样,给糖尿病的诊断和治疗带来了很大的困难。
任务
第一阶段:基于糖尿病临床指南和研究论文的实体标注构建;
第二阶段,基于糖尿病临床指南和研究论文的实体间关系构建。
介绍知识图谱(Knowledge Graph)
发展历史
最开始的目的是用来提高搜索引擎的搜索质量,理解用户查询背后的语义信息。(things not strings)
语义网络(Semantic Network,施事者,事件,受益者,物体)–> 本体(Ontology,确定领域内共同认可的词汇)–> 语义网(Semantic Web,描述万维网中资源和数据之间的关系)
表达方式
如何表达知识?知识图谱主要通过图的形式(节点与边)来结构化地组织知识。
通常使用三元组:源节点,边,目标节点,即主语,谓语,宾语的SPO三元组,是构成知识图谱的最小单位。
通常使用RDF(Resource Description Framework,资源描述框架)来组织三元组,一般用XML语法表示,后续有RDFs出现,且有OWL语言[2]进一步扩展了RDFs。
表示学习[3]能为知识图谱的相关任务带来很大的提升。
构建方式
如何构建知识图谱?构建知识图谱的核心是构建描述知识图谱的SPO三元组。
实体识别:解决S和O的识别问题,主要是确定实体在文本中的边界和分类。
关系抽取:主要是识别给定实体之间的关系,通常由领域内的专业给定。
知识融合;主要目的是对多个不同的知识图谱进行三元组的对齐,来获得更大的知识图谱,主要是实体的对齐。无监督实体对齐:通过对实体提取特征,再根据特征相似度进行聚类来实现对齐。相似度衡量手段有编辑距离[4]、Jaccard系数[5]、余弦相似度[6]等。
指代消解:是信息抽取中的一项关键任务。如一个实体的多种表达方式,还有以代词的形式存在,要准确理解其背后的语义信息。常用的方法有Mention Pair(所有指代词两两组合,再进行正负的二分类)和Mention Ranking(将一个指代词与其他词结合,通过softmax来判断这个指代词与哪一个候选词概率最大)。
知识推理
如何进行知识推理?主要任务是从已知的知识推理出未知的知识(知识图谱补全)和识别已有的错误(质量校验)。方法包括基于符号逻辑的推理和基于表示学习的推理。
知识补充
[1] 知识图谱构建环节:知识建模(约定模式,定义实体、关系、事件)、知识获取(实体识别、关系识别、事件识别)、知识融合(相同形式合并)、知识存储、知识计算(推理,挖掘相关性)、知识应用。
[2] OWL语言:一种定义和实例化web本体的语言,供计算机处理Web信息,比RDF具有更强的机器解释能力。
[3]表示学习:在深度学习领域内,表示是指通过模型的参数,采用何种形式、何种方式来表示模型的输入观测样本X。表示学习指学习对观测样本X有效的表示,是学习一个特征的技术的集合,将原始数据转换成为能够被机器学习来有效开发。
[4]编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,方式是看至少需要多少次的处理(插入、删除、改写字符)才能将一个字符串变成另一个字符串。
[5]Jaccard系数用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。定义为:给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值。
[6]余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。
边栏推荐
- Esp-mqtt-at instruction connects Alibaba cloud Internet of things platform
- MySQL面试题大全(陆续更新)
- 一篇带你走近Kubernetes概貌与原理
- 谈谈你知道的发布上线(二)
- Jerry ac692n --- prompt tone compression and modification
- FreeRTOS learning notes
- 软件测试培训需要多久?
- Database performance analysis and optimization (internal training materials of Aite future team)
- hgu95av2.在线安装失败
- 软件测试行业真的饱和了吗?
猜你喜欢
随机推荐
easyui tree
谈谈你知道的发布上线(一)
Vscode plug-in automatically adds comments
Convert the image file of input type='file'to Base64
Map R language
分支与循环(for与do-while)
R language drawing / drawing / drawing 2
Jerry ac692x --- matrix keyboard addition
.net动态调用webservice的三种方式
软件测试培训需要多久?
软件测试零基础小白学习需要掌握哪些技能?
How important is baseline safety from non child websites
Arya-专业web自动化测试平台
小白如何零基础学习软件测试?
js将本地时间与服务器时间同步
USB virtual serial port (CDC) limit speed test
In depth sharing of Ali (ant financial) technical interview process, with preliminary preparation and learning direction
Punctual atomic serial port protocol
Students' 20 R language exercises
一篇带你走近Kubernetes概貌与原理









