当前位置:网站首页>2. Introduction au traitement du langage naturel
2. Introduction au traitement du langage naturel
2022-06-10 02:10:00 【C - - G】
Introduction

Introduction au langage naturel
Prétraitement de texte



Approche de base du traitement de texte



jiebaParticipant
Installation
pip install jieba
Utiliser
- Segmentation du modèle exact
La vue coupe les phrases le plus précisément possible ,Convient à l'analyse de texte
- Segmentation de tous les modes
Lisez et numérisez tous les mots qui peuvent être utilisés comme mots dans une phrase. ,Très rapide,Mais il n'y a pas d'ambiguïté

- Mode moteur de recherche
Basé sur un modèle précis,Encore une fois, les mots longs,Augmenter le taux de rappel,Convient à la segmentation des moteurs de recherche
- Segmentation traditionnelle chinoise
Pour Hong Kong, Chine,Texte traditionnel de la région de Taiwan pour segmenter les mots
- Utiliser un dictionnaire personnalisé par l'utilisateur


Outils populaires de segmentation des mots chinois et anglais hanlp
Anglais et chinoisNLPKit de traitement,Basé surtensorflow2.0, Utiliser les technologies d'apprentissage profond les plus avancées pour promouvoir les universités et l'industrie
Installation
pip install hanlp
Segmentation chinoise

Segmentation anglaise


hanlp Identification des entités nommées chinoises

hanlp Identification des entités nommées en anglais



Utiliserjieba Marquage de la parole chinoise

Utiliserhanlp Marquage de la parole chinoise

Utiliserhanlp Marquage de la parole anglaise

Représentation tensorielle du texte


one-hot






word2vec






Utiliserfasttext Outils pratiques word2vec Formation et utilisation
- Préparation des données

- Traitement des données


- Vecteur de formation


- Paramètres du modèle

- Vérification des effets du modèle

- Enregistrement et rechargement des modèles

Analyse des données textuelles

Distribution du nombre d'étiquettes


Insérer la description de l'image ici
Répartition de la longueur des phrases








Statistiques du nombre total de mots différents


Nuage d'adjectifs à haute fréquence






Traitement des caractéristiques textuelles

n-gramCaractéristiques




Spécification de longueur de texte



Amélioration des données textuelles




Annexe
jiebaListe de contrôle lexical


hanlpListe de contrôle lexical


CAS:Tâche de classification des sujets de nouvelles

# Import relatedtorchKit d'outils
import torch
import torchtext
# Importertorchtext.datasetsTâches de classification de texte en
from torchtext.datasets import text_classification
import os
load_data_path = "./data"
if not os.path.isdir(load_data_path):
os.mkdir(load_data_path)
# ChoisisseztorchtextEnsemble de données de classification de texte dans‘AG_NEWS’C'est - à - dire les données de classification des sujets d'actualité,Enregistrer dans le répertoire spécifié
# Et les données de formation et de validation cartographiées numériquement sont chargées en mémoire
train_dataset,test_dataset = text_classification.DATASETS['AG_NEWS'](root=load_data_path)


Construire avecEmbeddingModèle de classification des textes pour les couches



Effectuer les donnéesbatchTraitement

Construire des fonctions de formation et de vérification


Formation et validation des modèles



Modèle de séquence classique——HMMAvecCRF
HMM



CRF



边栏推荐
- Six ways to reshape it leadership career
- OpenSUSE add boot entry
- Allan方差定义与计算方法简介
- Electron desktop development (capabilities, how to package, advantages)
- code....
- PAT (Advanced Level) Practice 1001 A+B Format (模拟)
- Data product learning - real time computing platform
- 能源项目管理面临的挑战有哪些?成功管理能源项目的技巧和工具
- Deepin runs Cherrytree and reports an error. The module gtksourceview2 cannot be found
- JS鼠标经过改变字体颜色,离开恢复
猜你喜欢

两道软件测试题目

MySQL multi table query
![[leetcode] connected to rainwater](/img/93/8caf413768eaa9765d3fb13d7dbf37.png)
[leetcode] connected to rainwater
[email protected] -808 and [email protected] -223 introduction"/>[email protected] -808 and [email protected] -223 introduction

WebRTC 的音频弱网对抗之 NACK

3、NLP模型

Why does chip design also need "Craftsmanship"?

副业收入是我做程序员的3倍,工作外的B面人生是怎样的?

Unity Netcode for GameObject 1.0.0 学习笔记(一)—— Hello World Demo

MySQL表管理(文件)
随机推荐
【LeetCode】437. Path sum III
Organic metal porous material MOF (FE) contains camptothecin, and gambogic acid and indocyanine green | rmof-3 contain paclitaxel
CSP 202112-1 sequence query (detailed explanation)
Sword finger offer 10- ii Frog jumping on steps
[no title] 416 Split equal sum subset
2022 mobile crane driver test questions simulation test platform operation
证明婚内出轨的几种证据
Webmaster Tools browser SEO plug-in - Webmaster Essential Tools SEO website ranking quick view website data
[FPGA] Day17 introduction to single bus protocol DS18B20
"Unable to access you may not have permission to use network resources" solution
Dry goods | touch screen operation automation of mobile app automation
Six ways to reshape it leadership career
35岁职场焦虑,越来越多的人这样选择
wps 调整文字间距
Use primecache to speed up your computer!
SSM框架整合-搭建简单账号登录系统
Introduction à la définition et au calcul de la variance Allan
【LeetCode】105. Constructing binary trees from preorder and inorder traversal sequences
The sideline income is three times as much as I do as a programmer. What is life like on side B outside of work?
Deepin compiles VirtualBox records and resolves compilation errors