当前位置:网站首页>NLP- 关键词提取 - 综述
NLP- 关键词提取 - 综述
2022-06-09 17:43:00 【大虾飞哥哥】
NLP- 关键词提取 - 综述
一、关键词提取有以下几种方式

二、TF-IDF
TF-IDF算法,主要是通过统计方法,评估词对文档的重要性。一个基本思想是,一个词在文档中出现的次数越多,显然这个词会相对更具代表性,但是如果这个词在很多的文档中都有出现,那么他出现次数再多也不具备文档区分能力。所以他的另一个基本思想是如果一个词在越少的文档中多次出现, 则其对文档的区分能力也就越强,而且也具有代表性。
三、TextRank
TextRank算法则可以脱离语料库的基础,仅对单篇文档进行分析就可以提取该文档的关键词。这也是TextRank算法的重要特点。TextRank算法的基本思想源于Google的PageRank算法。
四、LDA
LDA算法,是目前关键词检测技术中最流行的方法之一,每篇文档由不同的词组成的同时,同时也存在多个潜在的主题,比如体育,娱乐,新闻,政治。而每个主题也有属于它的不同的词,比如属于“体育”主题可能会有“足球,篮球,比赛”,属于“娱乐”主题可能会有“明星,电影,唱片”等等。但是一般而言,一篇文章的主要内容最有可能是集中于少数几个主题上,如果每个主题都有所涉及,显然这些主题是无法反映文章重点的。所以,LDA的目的就是在上述条件的基础之上,根据文档中的词来找到文档最可能的几个主题以及其中的词。
五、word2vec
Word2vec算法,主要研究词与词之间的关系,他将所有文本数据集中出现的全部不重复的词都转化成了向量,这种数据格式包含了这个词与其他所有词的相似度,因此我们就可以根据词之间的关系进行分类,通过分类算法得到多个类别的中心词,之后再计算每个类中词语与类别中心的相似度并排序,最后选择最接近的中心的前几个词作为关键词。
边栏推荐
- build sqllite from amalgamation version
- UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xad in position 2: illegal multibyte sequence
- Imshow() of OpenCV to view the pixel value of the picture
- Operating instructions for abbexa AEC chromogen Kit
- 外出旅行如何确保人身及财产安全
- The sisters sit in the bow of the boat while the brothers walk ashore
- A high-value open source knowledge management tool
- AUTOCAD——坐标引线标注
- What is the expected life of the conductive slip ring
- idea卸载教程
猜你喜欢

Solve the chrome prompt: "your connection is not a private connection" and there is no continue access option

外出旅行如何确保人身及财产安全

Unity-代码绑定按钮功能

idea卸载教程

MySQL并行复制(MTS)原理(完整版)
![[long time series prediction] time series decomposition of [2] model components for detailed explanation of aotoformer code](/img/27/132ff1e68e9e34a9d50f1a5c3f4a2d.png)
[long time series prediction] time series decomposition of [2] model components for detailed explanation of aotoformer code

SDN environment usage and openflow protocol flow analysis of software defined network experiment
MySQL 8.0.29 解压版安装配置方法图文教程

Epigentek hi fi cDNA synthesis kit instructions

音频 3A 处理实践,让你的应用更「动听」
随机推荐
c語言解决爬樓梯問題
Leetcode 1979. Find the greatest common divisor of the array
头部物联网SaaS公司G7、E6合并,能否成为to B领域的“美团”?
回家-的路
秒云云原生信创全兼容解决方案,推动信创产业加速落地
外出旅行如何确保人身及财产安全
What is the expected life of the conductive slip ring
Gesture interaction across the space, performing "handy" in the real world
Android 缓存机制 LRUCache
go-zero 微服务实战系列(二、服务拆分)
Solve the chrome prompt: "your connection is not a private connection" and there is no continue access option
主动预防-DWS关键工具安装确认
Small program startup performance optimization practice
Word paper format
Macro definition CV with parameters in opencv_ Role of assert()
MySQL 8.0.29 解压版安装配置方法图文教程
Manjaro kconsole开启半透明
Le langage C résout le problème de l'escalier
【嵌入式工程师·单片机】① 基础概念 之 单片机
AI首席架构师3-AICA-智慧城市中的AI应用实践