当前位置:网站首页>【笔记】结巴分词绘制词云图
【笔记】结巴分词绘制词云图
2022-07-30 01:43:00 【Sprite.Nym】
一、结巴分词的三种模式
(1)精确模式:把最有可能组成词语的词切开,没有冗余单词。
(2)全模式:把所有可能组成词语的词切开,有冗余单词。
(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。
二、正则提取数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# 导数据
douyin = pd.read_csv('data/douyin.csv')
# 正则提取,并达到MySQL中group_concat的效果
temp = douyin['signature'].str.extractall(r'[^一-龥]*([一-龥]+)[^一-龥]*').copy()
temp = temp.reset_index().groupby('level_0').agg({
0:list})[0].apply(lambda x: ','.join(x))
# 将提取出来的字符串进行分词,并剔除停用词
result0 = ','.join([','.join(jieba.lcut(statement)) for statement in temp]).split(',')
result1 = [x for x in result0 if x not in stop_words]
# 创建词频Series对象
important_words = pd.Series(result1).value_counts()[1:200]
important_words
三、绘制
# 导入绘制所需参考图像
bgimg = np.array(Image.open('data/bgimg.png'))
# 以参考图像的颜色作为词云图颜色
genclr = wordcloud.ImageColorGenerator(bgimg)
# 创建慈云图对象
wc = wordcloud.WordCloud(
# 指定字体路径
font_path='data/FZZJ-LongYTJW.TTF',
# 指定背景颜色
background_color='white',
# 指定最大词数
max_words=200,
# 指定最大和最小字号
max_font_size=300,
min_font_size=5,
# 指定随机种子
random_state=4,
# 指定词云图轮廓参考哪张图
mask=bgimg,
# 指定词云图颜色
color_func=genclr)
# 渲染文字
wc.generate_from_frequencies(important_words)
# 使用plt展示词云图
plt.figure(figsize=(24,24))
plt.imshow(wc)
plt.axis('off')

边栏推荐
- MATLAB被禁下一个会是LABVIEW吗?国产测试软件ATECLOUD崛起发力
- How to set up hybrid login in SQL server in AWS
- 基于燃压缩空气储能系统的零碳微能源互联网优化调度(Matlab代码实现)
- 什么专业越老越吃香?
- Recommendation systems: feature engineering, common features
- 将镜像推送到阿里云私有仓库
- FlutterBoost 3.0出现 Activity无法转换为ExclusiveAppComponent<Activity>的解决办法
- 基于低能耗自适应聚类层次结构(LEACH)(Matlab代码实现)
- [Microservice~Nacos] Nacos service provider and service consumer
- LeetCode 2342. 数位和相等数对的最大和
猜你喜欢

LeetCode / Scala - 无重复字符最长子串 ,最长回文子串

利用ESP32构造一个ZIGBEE的网络发送转接

自学HarmonyOS应用开发(56)- 用Service保证应用在后台持续运行

泰克Tektronix示波器软件TDS210|TDS220|TDS224上位机软件NS-Scope

经济衰退时期的对比:如今更像历史上的哪段时期?

气路旋转连接器怎么用

AI落地难?云原生助力企业快速应用机器学习 MLOps

Recommendation systems: feature engineering, common features

【LeetCode每日一题】——230.二叉搜索树中第K小的元素

【LeetCode每日一题】——872.叶子相似的树
随机推荐
typora 透明背景图片
【MySQL必知必会】 范式 | ER模型
【SemiDrive源码分析】【MailBox核间通信】43 - 基于Mailbox IPCC RPC 实现核间通信(代码实现篇)
MATLAB被禁下一个会是LABVIEW吗?国产测试软件ATECLOUD崛起发力
AI落地难?云原生助力企业快速应用机器学习 MLOps
在服务器上运行node流程
畅玩西安全攻略
接口测试自动化后起之秀-YApi接口管理平台
将镜像推送到阿里云私有仓库
Leetcode69. x 的平方根
【C Primer Plus第九章课后编程题】
Type-C边充电边OTG芯片——LDR6028A
泰克Tektronix示波器软件TDS420|TDS430|TDS460上位机软件NS-Scope
Recommendation systems: feature engineering, common features
「MySQL」- 基础增删改查
App测试需要测什么
泰克Tektronix示波器软件TDS2012|TDS2014|TDS2022上位机软件NS-Scope
泰克Tektronix示波器软件TDS210|TDS220|TDS224上位机软件NS-Scope
Leetcode68. 文本左右对齐
液压滑环的应用介绍