当前位置:网站首页>2、自然語言處理入門

2、自然語言處理入門

2022-06-10 02:10:00 C--G

簡介

在這裏插入圖片描述

自然語言入門

文本預處理

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

文本處理的基本方法

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

jieba分詞

安裝

pip install jieba

使用

  • 精確模式分詞
    視圖將句子最精確地切開,適合文本分析
    在這裏插入圖片描述
  • 全模式分詞
    把句子中所有的可以成詞的詞語讀掃描出來,速度非常快,但是不能消除歧義

在這裏插入圖片描述

  • 搜索引擎模式
    在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞
    在這裏插入圖片描述
  • 中文繁體分詞
    針對中國香港,臺灣地區的繁體文本進行分詞
    在這裏插入圖片描述
  • 使用用戶自定義詞典

在這裏插入圖片描述
在這裏插入圖片描述

流行中英文分詞工具hanlp

中英文NLP處理工具包,基於tensorflow2.0,使用在學術界和行業中推廣最先進的深度學習技術
安裝

pip install hanlp
  • 中文分詞
    在這裏插入圖片描述

  • 英文分詞
    在這裏插入圖片描述
    在這裏插入圖片描述

  • hanlp進行中文命名實體識別
    在這裏插入圖片描述

  • hanlp進行英文命名實體識別
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

  • 使用jieba進行中文詞性標注
    在這裏插入圖片描述

  • 使用hanlp進行中文詞性標注
    在這裏插入圖片描述

  • 使用hanlp進行英文詞性標注
    在這裏插入圖片描述

文本張量錶示方法

在這裏插入圖片描述
在這裏插入圖片描述

one-hot

在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

word2vec

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

使用fasttext工具實習word2vec的訓練和使用

  • 數據准備

在這裏插入圖片描述

  • 數據處理

在這裏插入圖片描述
在這裏插入圖片描述

  • 訓練詞向量

- List item

在這裏插入圖片描述

  • 模型超參數設定

在這裏插入圖片描述

  • 模型效果檢驗
    在這裏插入圖片描述
  • 模型的保存與重加載

在這裏插入圖片描述

文本數據分析

在這裏插入圖片描述

標簽數量分布

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

句子長度分布

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

不同詞匯總數統計

在這裏插入圖片描述
在這裏插入圖片描述

高頻形容詞詞雲

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

文本特征處理

在這裏插入圖片描述

n-gram特征

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

文本長度規範

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

文本數據增强

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

jieba詞性對照錶

在這裏插入圖片描述
在這裏插入圖片描述

hanlp詞性對照錶

在這裏插入圖片描述
在這裏插入圖片描述

案例:新聞主題分類任務

在這裏插入圖片描述

# 導入相關torch工具包
import torch
import torchtext
# 導入torchtext.datasets中的文本分類任務
from torchtext.datasets import text_classification
import os

load_data_path = "./data"
if not os.path.isdir(load_data_path):
    os.mkdir(load_data_path)

# 選取torchtext中的文本分類數據集‘AG_NEWS’即新聞主題分類數據,保存在指定目錄下
# 並將數值映射後的訓練和驗證數據加載到內存中
train_dataset,test_dataset = text_classification.DATASETS['AG_NEWS'](root=load_data_path)

在這裏插入圖片描述
在這裏插入圖片描述
構建帶有Embedding層的文本分類模型
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
對數據進行batch處理
在這裏插入圖片描述
在這裏插入圖片描述
構建訓練與驗證函數
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
進行模型訓練和驗證
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

經典序列模型——HMM與CRF

HMM

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

CRF

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

原网站

版权声明
本文为[C--G]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/161/202206100158110510.html