当前位置:网站首页>Dictionary feature extraction, text feature extraction.

Dictionary feature extraction, text feature extraction.

2022-08-04 06:04:00 I'm fine please go away thank you

1 定义

将任意数据(如文本或图像)转换为可用于机器学习的数字特征

注:特征值化是为了计算机更好的去理解数据

  • 特征提取分类:
    • 字典特征提取(特征离散化)
    • 文本特征提取
    • 图像特征提取

2. 字典特征提取API

sklearn.feature_extraction
在这里插入图片描述

3. Dictionary Feature Extraction Case:

1.实现效果:

在这里插入图片描述

2.实现代码

在这里插入图片描述
在这里插入图片描述

4. 文本特征提取

1. 方法

在这里插入图片描述

2. 英文案例

1. 实现效果

在这里插入图片描述

2.流程

from sklearn.feature_extraction.text import CountVectorizer

def text_count_demo():
    """ 对文本进行特征抽取,countvetorizer :return: None """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False) # 注意,没有sparse这个参数
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("文本特征抽取的结果:\n", data.toarray())
    print("返回特征名字:\n", transfer.get_feature_names())

    return None

运行结果:

文本特征抽取的结果:
[[0 1 1 2 0 1 1 0]
[1 1 1 0 1 1 0 1]]
返回特征名字:
[‘dislike’, ‘is’, ‘life’, ‘like’, ‘long’, ‘python’, ‘short’, ‘too’]

3. 中文案例

在这里插入图片描述
在这里插入图片描述

使用到的包

from sklearn.feature_extraction import DictVectorizer  #字典特征提取
from sklearn.feature_extraction.text import CountVectorizer #文本特征提取
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
原网站

版权声明
本文为[I'm fine please go away thank you]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/216/202208040525283536.html