当前位置:网站首页>NLP自然语言处理-机器学习和自然语言处理介绍(三)
NLP自然语言处理-机器学习和自然语言处理介绍(三)
2022-07-26 07:17:00 【皇儒无上】
NLP自然语言处理-机器学习和自然语言处理介绍-新词发现和TF-IDF
1. 新词发现
(1)为什么要做新词发现
① 如果没有词表,那我们如何发现词;
② 随着数据量的增加,旧的词表会逐步满足不了后续的需求;
③ 补充词表有助于下游任务的实现。
④ 词相当于一种固定搭配,词的内部是稳固的,也叫内部凝固度
;而词的外部是不稳定的,称为左右熵
。
例如下图:河北这个词是稳固的,但是后边跟的就不是固定的了。
(2)何为重要词
① 当我们对文章进行分词处理后,需要利用词对文档进行理解,那么我们需要的就是文档中的重要词;如下:
② 假如一个词在某类文本(假设为A类)中出现次数很多,而在其他类别文本(非A类)出现很少,那么这个词是A类文本的重要词(高权重词)。
反之,如果一个词在出现在很多领域,则其对于任意类别的重要性都很差。
③ 用数学来刻画一个词的重要性,即NLP中的TF-IDF:TF词频,即某个词在某类别中出现的次数/该类别词总数;IDF逆文档频率,逆文档频率高 -> 该词很少出现在其他文档
。
计算方式:每个词对于每个类别都会得到一个TF·IDF值,TF·IDF高 -> 该词对于该领域重要程度高。
2. TD-IDF算法的特点
(1)tf-idf的计算非常依赖分词结果,如果分词出错,统计值的意义会大打折扣;
(2)每个词,对于每篇文档,有不同的tf-idf值,所以不能脱离数据讨论tfidf;
(3)假如只有一篇文本,不能计算tf-idf;
(4)类别数据均衡很重要;
(5)容易受各种特殊符号影响,最好做一些预处理。
3. TD-IDF算法的应用
(1)TF-IDF应用-搜索引擎
① 对于已有的所有网页(文本),计算每个网页中,词的TFIDF值;
② 对于一个输入query进行分词;
③ 对于文档D,计算query中的词在文档D中的TFIDF值总和,作为query和文档的相关性得分。
(2)TF-IDF应用-文本摘要
① 通过计算TFIDF值得到每个文本的关键词;
② 将包含关键词多的句子,认为是关键句;
③ 挑选若干关键句,作为文本的摘要。
(3)TF-IDF应用-文本相似度计算
对所有文本计算tfidf后,从每个文本选取tfidf较高的前n个词,得到一个词的集合S。对于每篇文本D,计算S中的每个词的词频,将其作为文本的向量。通过计算向量夹角余弦值,得到向量相似度,作为文本的相似度。
向量夹角余弦值计算:
4. TF-IDF的优势
① 可解释性好:可以清晰地看到关键词,即使预测结果出错,也很容易找到原因;
② 计算速度快:分词本身占耗时最多,其余为简单统计计算;
③ 对标注数据依赖小:可以使用无标注语料完成一部分工作;
④ 可以与很多算法组合使用:可以看做是词权重。
5. TF-IDF的劣势
① 受分词效果影响大;
② 词与词之间没有语义相似度(这个问题是比较致命的);
③ 没有语序信息(词袋模型);
④ 能力范围有限,无法完成复杂任务,如机器翻译和实体挖掘等;
⑤ 样本不均衡会对结果有很大影响;
⑥ 类内样本间分布不被考虑。
边栏推荐
- Data platform scheduling upgrade and transformation | operation practice from Azkaban smooth transition to Apache dolphin scheduler
- 火焰图分析Flink反压
- NIO实现
- A guide for you to fully use TS
- Opencv learning color detection
- Acwing- daily question
- How to convert multi row data into multi column data in MySQL
- Opencv learn read images videos and webcams
- How to delete a statement audit log?
- Solve the problem that Chrome browser is tampered with by drug bullies
猜你喜欢

Data platform scheduling upgrade and transformation | operation practice from Azkaban smooth transition to Apache dolphin scheduler

Hcip - MPLS Technology

Opencv learn read images videos and webcams

强网杯2021 pwn 赛题解析——baby_diary

Screen: frame paste, 0 fit, full fit

Qt:列表框、表格、树形控件

Apache Dolphinscheduler3.0.0-beta-1 版本发布,新增FlinkSQL、Zeppelin任务类型

Relevant configurations of pychart: change font style and size, change picture background, and change the font color of console output

Drools(2):Drools快速入门

倒计时2日!基于 Apache DolphinScheduler&TiDB 的交叉开发实践,从编写到调度让你大幅提升效率
随机推荐
C51与MDK共存 Keil5安装教程
QT: modal, modeless, text box, button, single line input box
如何对C盘进行扩容重新分区?
shape 和 size() 区别
Difference between shape and size ()
How to delete a statement audit log?
NiO implementation
Talent column | can't use Apache dolphin scheduler? The most complete introductory tutorial written by the boss in one month [3]
DaemonSet
Differences in the use of function call pointer parameters *p, * & P
配置Flask
7月消息,Glassnode数据显示,Deribit上ETH永续期货合约未平仓头寸刚刚达到一个月高点237,959,827美元。
Opencv learn resize and crop
达人专栏 | 还不会用 Apache Dolphinscheduler?大佬用时一个月写出的最全入门教程【三】
Weekly tip 142: multi parameter constructors and explicit
Qt:模态非模态、文本框、按钮、单行输入框
A guide for you to fully use TS
20220725 自动控制原理中的卷积Convolution
Acwing- daily question
MySQL execution plan