当前位置:网站首页>lxml模块(数据提取)
lxml模块(数据提取)
2022-07-01 06:17:00 【HHYZBC】
lxml 是 Python 的第三方解析库,在第一次使用前需要使用到下面命令进行下载
pip install lxml
lxml使用流程
lxml模块中提供了一个etree 模块,该模块专门用于解析HTML/XML 文档
- 导入模块
from lxml import etree
- 初始化解析对象
parse_html = etree.HTML(html)
HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本。parse_html只是一个变量名,后续的调用xpath表达式都是在此对象的基础上完成的。
- 调用xpath表达式
r_list = parse_html.xpath('xpath表达式')
xpath方法会将符合xpath表达式的结果以列表的形式返回。
xpath表达式
常用的路径表达式
- nodename
- 选取此节点的所有子节点。
- /
- 从根节点选取。
- //
- 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
- .
- 选取当前节点。
- ..
- 选取当前节点的父节点。
- @
- 选取属性。
常用方法
- text()
- 返回该节点的的数据,如:
<a href="#">哈哈哈</a>
- 使用text()方法后会返回哈哈哈
更多函数看官网:
XPath 教程 (w3school.com.cn)https://www.w3school.com.cn/xpath/index.asp
边栏推荐
- 解决麒麟V10上传文件乱码问题
- Small guide for rapid completion of mechanical arm (VI): stepping motor driver
- DHT11 temperature and humidity sensor
- 相同区域 多源栅格数据 各个像元行列号一致,即行数列数相同,像元大小相同
- HCM Beginner (III) - quickly enter pa70 and pa71 to browse employee information PA10
- 让田头村变甜头村的特色农产品是仙景芋还是白菜
- [summary of problem thinking] Why is the register reset performed in user mode?
- SystemVerilog learning-10-validation quantification and coverage
- SOE spatial analysis server MySQL and PostGIS geospatial database of Postgres anti injection attack
- Pla ne colle pas sur le lit: 6 solutions simples
猜你喜欢
Small guide for rapid completion of mechanical arm (VI): stepping motor driver
OpenGL es: (3) EGL, basic steps of EGL drawing, eglsurface, anativewindow
PLA not pasted on the bed: 6 simple solutions
Tidb database characteristics summary
HCM Beginner (III) - quickly enter pa70 and pa71 to browse employee information PA10
高阶-二叉搜索树详解
让厦门灌口镇田头村变甜头村的特色农产品之一是蚂蚁新村
Multi label lsml for essay learning records
[summary of knowledge points] chi square distribution, t distribution, F distribution
Top 10 Free 3D modeling software for beginners in 2022
随机推荐
局域网监控软件有哪些功能
【ManageEngine卓豪】网络运维管理是什么,网络运维平台有什么用
[summary of problem thinking] Why is the register reset performed in user mode?
【ITSM】什么是ITSM,IT部门为什么需要ITSM
DHT11 温湿度传感器
69 Cesium代码datasource加载geojson
阶乘约数(唯一分解定理)
freeswitch拨打分机号
π disk, turning your computer into a personal private cloud
OpenGL es: (1) origin of OpenGL es (transfer)
连续四年入选Gartner魔力象限,ManageEngine卓豪是如何做到的?
B-树系列
PLA不粘貼在床上:6個簡單的解决方案
OpenGL es: (2) relationship between OpenGL es, EGL and glsl
Flink实战--多流合并
Diffusion (multi-source search)
highmap gejson数据格式转换脚本
【文件系统】如何在ubi之上运行squashfs
JDBC connection pool
机械臂速成小指南(六):步进电机驱动器