当前位置：网站首页>2. Introduction au traitement du langage naturel

2. Introduction au traitement du langage naturel

2022-06-10 02:10:00 【C - - G】

Introduction

Insérer la description de l'image ici

Introduction au langage naturel

Prétraitement de texte

Insérer la description de l'image ici

Approche de base du traitement de texte

Insérer la description de l'image ici

jiebaParticipant

Installation

pip install jieba

Utiliser

Segmentation du modèle exact
La vue coupe les phrases le plus précisément possible ,Convient à l'analyse de texte
Segmentation de tous les modes
Lisez et numérisez tous les mots qui peuvent être utilisés comme mots dans une phrase. ,Très rapide,Mais il n'y a pas d'ambiguïté

Insérer la description de l'image ici

Mode moteur de recherche
Basé sur un modèle précis,Encore une fois, les mots longs,Augmenter le taux de rappel,Convient à la segmentation des moteurs de recherche
Segmentation traditionnelle chinoise
Pour Hong Kong, Chine,Texte traditionnel de la région de Taiwan pour segmenter les mots
Utiliser un dictionnaire personnalisé par l'utilisateur

Insérer la description de l'image ici

Outils populaires de segmentation des mots chinois et anglais hanlp

Anglais et chinoisNLPKit de traitement,Basé surtensorflow2.0, Utiliser les technologies d'apprentissage profond les plus avancées pour promouvoir les universités et l'industrie
Installation

pip install hanlp

Segmentation chinoise
Segmentation anglaise
hanlp Identification des entités nommées chinoises
hanlp Identification des entités nommées en anglais
Utiliserjieba Marquage de la parole chinoise
Utiliserhanlp Marquage de la parole chinoise
Utiliserhanlp Marquage de la parole anglaise

Représentation tensorielle du texte

Insérer la description de l'image ici

one-hot

Insérer la description de l'image ici

word2vec

Insérer la description de l'image ici

Utiliserfasttext Outils pratiques word2vec Formation et utilisation

Préparation des données

Insérer la description de l'image ici

Traitement des données

Insérer la description de l'image ici

Vecteur de formation

- List item

Insérer la description de l'image ici

Paramètres du modèle

Insérer la description de l'image ici

Vérification des effets du modèle
Enregistrement et rechargement des modèles

Insérer la description de l'image ici

Analyse des données textuelles

Insérer la description de l'image ici

Distribution du nombre d'étiquettes

Insérer la description de l'image ici

Répartition de la longueur des phrases

Insérer la description de l'image ici

Statistiques du nombre total de mots différents

Insérer la description de l'image ici

Nuage d'adjectifs à haute fréquence

Insérer la description de l'image ici

Traitement des caractéristiques textuelles

Insérer la description de l'image ici

n-gramCaractéristiques

Insérer la description de l'image ici

Spécification de longueur de texte

Insérer la description de l'image ici

Amélioration des données textuelles

Insérer la description de l'image ici

Annexe

jiebaListe de contrôle lexical

Insérer la description de l'image ici

hanlpListe de contrôle lexical

Insérer la description de l'image ici

CAS：Tâche de classification des sujets de nouvelles

Insérer la description de l'image ici

# Import relatedtorchKit d'outils
import torch
import torchtext
# Importertorchtext.datasetsTâches de classification de texte en
from torchtext.datasets import text_classification
import os

load_data_path = "./data"
if not os.path.isdir(load_data_path):
    os.mkdir(load_data_path)

# ChoisisseztorchtextEnsemble de données de classification de texte dans‘AG_NEWS’C'est - à - dire les données de classification des sujets d'actualité,Enregistrer dans le répertoire spécifié
# Et les données de formation et de validation cartographiées numériquement sont chargées en mémoire
train_dataset,test_dataset = text_classification.DATASETS['AG_NEWS'](root=load_data_path)

Insérer la description de l'image ici

Construire avecEmbeddingModèle de classification des textes pour les couches

Effectuer les donnéesbatchTraitement

Construire des fonctions de formation et de vérification

Formation et validation des modèles