当前位置:网站首页>2. Introduction au traitement du langage naturel

2. Introduction au traitement du langage naturel

2022-06-10 02:10:00 C - - G

Introduction

Insérer la description de l'image ici

Introduction au langage naturel

Prétraitement de texte

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Approche de base du traitement de texte

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

jiebaParticipant

Installation

pip install jieba

Utiliser

  • Segmentation du modèle exact
    La vue coupe les phrases le plus précisément possible ,Convient à l'analyse de texte
    Insérer la description de l'image ici
  • Segmentation de tous les modes
    Lisez et numérisez tous les mots qui peuvent être utilisés comme mots dans une phrase. ,Très rapide,Mais il n'y a pas d'ambiguïté

Insérer la description de l'image ici

  • Mode moteur de recherche
    Basé sur un modèle précis,Encore une fois, les mots longs,Augmenter le taux de rappel,Convient à la segmentation des moteurs de recherche
    Insérer la description de l'image ici
  • Segmentation traditionnelle chinoise
    Pour Hong Kong, Chine,Texte traditionnel de la région de Taiwan pour segmenter les mots
    Insérer la description de l'image ici
  • Utiliser un dictionnaire personnalisé par l'utilisateur

Insérer la description de l'image ici
Insérer la description de l'image ici

Outils populaires de segmentation des mots chinois et anglais hanlp

Anglais et chinoisNLPKit de traitement,Basé surtensorflow2.0, Utiliser les technologies d'apprentissage profond les plus avancées pour promouvoir les universités et l'industrie
Installation

pip install hanlp
  • Segmentation chinoise
    Insérer la description de l'image ici

  • Segmentation anglaise
    Insérer la description de l'image ici
    Insérer la description de l'image ici

  • hanlp Identification des entités nommées chinoises
    Insérer la description de l'image ici

  • hanlp Identification des entités nommées en anglais
    Insérer la description de l'image ici
    Insérer la description de l'image ici
    Insérer la description de l'image ici

  • Utiliserjieba Marquage de la parole chinoise
    Insérer la description de l'image ici

  • Utiliserhanlp Marquage de la parole chinoise
    Insérer la description de l'image ici

  • Utiliserhanlp Marquage de la parole anglaise
    Insérer la description de l'image ici

Représentation tensorielle du texte

Insérer la description de l'image ici
Insérer la description de l'image ici

one-hot

Insérer la description de l'image ici

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

word2vec

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Utiliserfasttext Outils pratiques word2vec Formation et utilisation

  • Préparation des données

Insérer la description de l'image ici

  • Traitement des données

Insérer la description de l'image ici
Insérer la description de l'image ici

  • Vecteur de formation

- List item

Insérer la description de l'image ici

  • Paramètres du modèle

Insérer la description de l'image ici

  • Vérification des effets du modèle
    Insérer la description de l'image ici
  • Enregistrement et rechargement des modèles

Insérer la description de l'image ici

Analyse des données textuelles

Insérer la description de l'image ici

Distribution du nombre d'étiquettes

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Répartition de la longueur des phrases

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Statistiques du nombre total de mots différents

Insérer la description de l'image ici
Insérer la description de l'image ici

Nuage d'adjectifs à haute fréquence

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Traitement des caractéristiques textuelles

Insérer la description de l'image ici

n-gramCaractéristiques

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Spécification de longueur de texte

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Amélioration des données textuelles

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Annexe

jiebaListe de contrôle lexical

Insérer la description de l'image ici
Insérer la description de l'image ici

hanlpListe de contrôle lexical

Insérer la description de l'image ici
Insérer la description de l'image ici

CAS:Tâche de classification des sujets de nouvelles

Insérer la description de l'image ici

# Import relatedtorchKit d'outils
import torch
import torchtext
# Importertorchtext.datasetsTâches de classification de texte en
from torchtext.datasets import text_classification
import os

load_data_path = "./data"
if not os.path.isdir(load_data_path):
    os.mkdir(load_data_path)

# ChoisisseztorchtextEnsemble de données de classification de texte dans‘AG_NEWS’C'est - à - dire les données de classification des sujets d'actualité,Enregistrer dans le répertoire spécifié
# Et les données de formation et de validation cartographiées numériquement sont chargées en mémoire
train_dataset,test_dataset = text_classification.DATASETS['AG_NEWS'](root=load_data_path)

Insérer la description de l'image ici
Insérer la description de l'image ici
Construire avecEmbeddingModèle de classification des textes pour les couches
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Effectuer les donnéesbatchTraitement
Insérer la description de l'image ici
Insérer la description de l'image ici
Construire des fonctions de formation et de vérification
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Formation et validation des modèles
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Modèle de séquence classique——HMMAvecCRF

HMM

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

CRF

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

原网站

版权声明
本文为[C - - G]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/161/202206100158110510.html