当前位置:网站首页>11 brève introduction et installation de la Bibliothèque d'analyse de soup beautiful

11 brève introduction et installation de la Bibliothèque d'analyse de soup beautiful

2022-06-21 19:16:00 Andy Python notes d'étude

11 Beautiful Soup Introduction et installation de la Bibliothèque d'analyse


Nous avons besoin de ce qui suit pour accomplir une tâche de reptile3Étapes:
Étapes1:Obtenir une page web;Obtenir une page Web lance une demande de page web,Obtenir le code source de la page web.
Étapes2:Analyser la page web;L'analyse du réseau doit d'abord compléter l'analyse des données,Puis extraire les données.
Étapes3:Stockage des données.

Python À traitercsvDocumentation,J'ai besoin que Monsieur soit un Python Objet,C'est - à - dire: csv Objet.
Python Pour traiter ce qui a été obtenu HTML Page Web, Il faut aussi que Monsieur soit un Python Objet.
Le but de l'analyse des données est de HTMLLe document est converti en Python Le programme peut gérer Python Objet.

L'analyse des données nécessite l'utilisation d'une bibliothèque d'analyse et d'un analyseur pour .

Beautiful Soup EtXpath Sont des bibliothèques d'analyse utilisées pour analyser les données .

11.1 Beautiful Soup Introduction à la Bibliothèque d'analyse

11.1.1 Beautiful Soup Caractéristiques

Insérer la description de l'image ici

1.APISimple.、Puissant

Beautiful Soup Offre quelques méthodes simples et Python Fonction de formule ,Pour parcourir、 Rechercher et modifier l'arbre de résolution ,C'est une boîte à outils,Fournir à l'utilisateur les données à saisir en analysant le document.

Beautiful Soup EtXpath Peut extraire des données du document .
Mais...Beautiful Soup Vous pouvez également modifier les données du document ,C'estXpath Fonctions non disponibles.

2. Prise en charge de plusieurs Analyseurs

Beautiful Soup Un analyseur doit être installé pour l'utiliser .
Beautiful Soup Prise en charge de plusieurs Analyseurs.
Y compris:PythonDans la Bibliothèque standardHTMLAnalyseur, Prise en charge des analyseurs tiers .

3. Automatiser la conversion des codes

Beautiful Soup Convertir automatiquement le document d'entrée en UnicodeType,Convertir le document de sortie enuft-8Codage.
Si aucun codage n'est spécifié dans le document , Il suffit de spécifier le Code .

11.2 Beautiful Soup Résoudre l'installation de la Bibliothèque

Pour l'instantBeautiful Soup La dernière version de4.x, Les versions précédentes ont cessé de se développer .
Donc, à l'avenir, l'analyse sera beautifulsoup4 .

beautifulsoup4 En brefbs4.
bs4 Cu Oui.PythonBibliothèque de tiers pour, Vous devez l'installer avant de l'importer avant de l'utiliser .
bs4 De 4 Représente la version.

Commandes d'installation

pip3 install beautifulsoup4

11.3 Beautiful Soup Analyseur

Insérer la description de l'image ici

Méthode d'installation de l'analyseur

Installationlxml

Beautiful Soup DeLXML HTML L'analyseur dépend de lxmlDe la bibliothèque,Doit être installé avant utilisationlxmlBibliothèque.

Commandes d'installation

pips install lxml

Installationhtml5lib

Commandes d'installation

pips install html5lib

原网站

版权声明
本文为[Andy Python notes d'étude]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/172/202206211733457671.html