当前位置:网站首页>Dictionary feature extraction, text feature extraction.
Dictionary feature extraction, text feature extraction.
2022-08-04 06:04:00 【I'm fine please go away thank you】
文章目录
1 定义
将任意数据(如文本或图像)转换为可用于机器学习的数字特征
注:特征值化是为了计算机更好的去理解数据
- 特征提取分类:
- 字典特征提取(特征离散化)
- 文本特征提取
- 图像特征提取
2. 字典特征提取API
sklearn.feature_extraction
3. Dictionary Feature Extraction Case:
1.实现效果:

2.实现代码


4. 文本特征提取
1. 方法

2. 英文案例
1. 实现效果

2.流程
from sklearn.feature_extraction.text import CountVectorizer
def text_count_demo():
""" 对文本进行特征抽取,countvetorizer :return: None """
data = ["life is short,i like like python", "life is too long,i dislike python"]
# 1、实例化一个转换器类
# transfer = CountVectorizer(sparse=False) # 注意,没有sparse这个参数
transfer = CountVectorizer()
# 2、调用fit_transform
data = transfer.fit_transform(data)
print("文本特征抽取的结果:\n", data.toarray())
print("返回特征名字:\n", transfer.get_feature_names())
return None
运行结果:
文本特征抽取的结果:
[[0 1 1 2 0 1 1 0]
[1 1 1 0 1 1 0 1]]
返回特征名字:
[‘dislike’, ‘is’, ‘life’, ‘like’, ‘long’, ‘python’, ‘short’, ‘too’]
3. 中文案例


使用到的包
from sklearn.feature_extraction import DictVectorizer #字典特征提取
from sklearn.feature_extraction.text import CountVectorizer #文本特征提取
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
边栏推荐
- 剑指 Offer 2022/7/4
- Delphi-C side interesting menu operation interface design
- 彻底搞懂箱形图分析
- Kubernetes基本入门-概念介绍(一)
- BUUCTF——MISC(一)
- postgresql 事务隔离级别与锁
- 自动化运维工具Ansible(6)Jinja2模板
- 【深度学习21天学习挑战赛】备忘篇:我们的神经网模型到底长啥样?——model.summary()详解
- Shell(1)简介入门
- WARNING: sql version 9.2, server version 11.0.Some psql features might not work.
猜你喜欢
随机推荐
原型对象及原型链的理解
SQL的性能分析、优化
NFT市场可二开开源系统
Matplotlib中的fill_between;np.argsort()函数
Lombok的一些使用心得
thymeleaf中 th:href使用笔记
NFT市场以及如何打造一个NFT市场
CTFshow—Web入门—信息(1-8)
TensorFlow:tf.ConfigProto()与Session
CTFshow—Web入门—信息(9-20)
ES6 Const Let Var的区别
MySql--存储引擎以及索引
(十四)平衡二叉树
关系型数据库-MySQL:体系结构
flink onTimer定时器实现定时需求
对象存储-分布式文件系统-MinIO-2:服务端部署
Commons Collections1
flink-sql所有数据类型
lmxcms1.4
自动化运维工具Ansible(7)roles









