当前位置:网站首页>NLP自然语言处理-机器学习和自然语言处理介绍(三)
NLP自然语言处理-机器学习和自然语言处理介绍(三)
2022-07-29 14:38:00 【皇儒无上】
NLP自然语言处理-机器学习和自然语言处理介绍-新词发现和TF-IDF
1. 新词发现
(1)为什么要做新词发现
① 如果没有词表,那我们如何发现词;
② 随着数据量的增加,旧的词表会逐步满足不了后续的需求;
③ 补充词表有助于下游任务的实现。
④ 词相当于一种固定搭配,词的内部是稳固的,也叫内部凝固度
;而词的外部是不稳定的,称为左右熵
。
例如下图:河北这个词是稳固的,但是后边跟的就不是固定的了。
(2)何为重要词
① 当我们对文章进行分词处理后,需要利用词对文档进行理解,那么我们需要的就是文档中的重要词;如下:
② 假如一个词在某类文本(假设为A类)中出现次数很多,而在其他类别文本(非A类)出现很少,那么这个词是A类文本的重要词(高权重词)。
反之,如果一个词在出现在很多领域,则其对于任意类别的重要性都很差。
③ 用数学来刻画一个词的重要性,即NLP中的TF-IDF:TF词频,即某个词在某类别中出现的次数/该类别词总数;IDF逆文档频率,逆文档频率高 -> 该词很少出现在其他文档
。
计算方式:每个词对于每个类别都会得到一个TF·IDF值,TF·IDF高 -> 该词对于该领域重要程度高。
2. TD-IDF算法的特点
(1)tf-idf的计算非常依赖分词结果,如果分词出错,统计值的意义会大打折扣;
(2)每个词,对于每篇文档,有不同的tf-idf值,所以不能脱离数据讨论tfidf;
(3)假如只有一篇文本,不能计算tf-idf;
(4)类别数据均衡很重要;
(5)容易受各种特殊符号影响,最好做一些预处理。
3. TD-IDF算法的应用
(1)TF-IDF应用-搜索引擎
① 对于已有的所有网页(文本),计算每个网页中,词的TFIDF值;
② 对于一个输入query进行分词;
③ 对于文档D,计算query中的词在文档D中的TFIDF值总和,作为query和文档的相关性得分。
(2)TF-IDF应用-文本摘要
① 通过计算TFIDF值得到每个文本的关键词;
② 将包含关键词多的句子,认为是关键句;
③ 挑选若干关键句,作为文本的摘要。
(3)TF-IDF应用-文本相似度计算
对所有文本计算tfidf后,从每个文本选取tfidf较高的前n个词,得到一个词的集合S。对于每篇文本D,计算S中的每个词的词频,将其作为文本的向量。通过计算向量夹角余弦值,得到向量相似度,作为文本的相似度。
向量夹角余弦值计算:
4. TF-IDF的优势
① 可解释性好:可以清晰地看到关键词,即使预测结果出错,也很容易找到原因;
② 计算速度快:分词本身占耗时最多,其余为简单统计计算;
③ 对标注数据依赖小:可以使用无标注语料完成一部分工作;
④ 可以与很多算法组合使用:可以看做是词权重。
5. TF-IDF的劣势
① 受分词效果影响大;
② 词与词之间没有语义相似度(这个问题是比较致命的);
③ 没有语序信息(词袋模型);
④ 能力范围有限,无法完成复杂任务,如机器翻译和实体挖掘等;
⑤ 样本不均衡会对结果有很大影响;
⑥ 类内样本间分布不被考虑。
边栏推荐
- ArcGIS Pro与ArcGis区别
- Zhaoqi Technology creates a platform for overseas high-level talent introduction, corporate project docking, and event roadshows
- 建议尽快优化搜索体验
- 兆骑科创海外高层次人才引进平台,企业项目对接,赛事活动路演
- 【LeetCode】1. 两数之和
- Generate Class bytecode files with Asm
- C语言 5:bool类型,关系表达式,逻辑表达式,分支语句,函数调用机制,break,continue,goto,return/exit跳转语句
- redis常见面试题(背诵篇)
- How to get local json
- Numpy
猜你喜欢
随机推荐
Chinese Internet technology companies were besieged by wolves. Google finally suffered a severe setback and its profits fell sharply. It regretted promoting the development of Hongmeng...
Why does APP use the JSON protocol to interact with the server: serialization related knowledge
RAMAN CONFIGURE 命令都能实现哪些功能
C语言 5:bool类型,关系表达式,逻辑表达式,分支语句,函数调用机制,break,continue,goto,return/exit跳转语句
AOP实现企业级API访问接口监控(通过Google Guava缓存数据)
从一道面试题说起:GET 请求能传图片吗?
【表达式计算】表达式计算问题的通用解法(练习加强版,含总结)
RAMAN 中 OPTIMIZATION 优化选项的作用
企业级存储详解与存储资源盘活
使用Xshell和Xftp7跑学校服务器记录
三 RedisTemplate 序列化机制配置实战
带你搞懂 Redis 中的两个策略
Map遍历 key-value 的4种方法
Pinia状态持久化
xss内容总结
Work Efficiency - Fifteen minutes allows you to quickly learn Markdown syntax to proficient in typesetting practice notes
电视处理器a53和a55哪个厉害(cortexa55处理器好吗)
【LeetCode】217. 存在重复元素
Work Efficiency - Fifteen minutes allows you to quickly learn Markdown syntax to proficient in typesetting practice notes
测试日报怎么写 ?








