当前位置:网站首页>【爬虫】数据提取之xpath
【爬虫】数据提取之xpath
2022-07-04 22:46:00 【语音不识别】
安装
pip install lxml
导包
from lxml import etree
使用
将html字符串 转换为element对象
# 将html字符串 转换为element对象
from lxml import etree
element = etree.HTML(html_str)
以下是通过element对象.xpath('匹配规则')
来提取内容
获取标签
使用 /
表示根节点,路径和路径之间的过渡
/html/xx/xx/xxx
使用 //
跨节点选取,直接到想要的标签或者文本
//xxx # 获取所有xxx标签
使用.
./ 当前节点
使用 ..
../ # 当前节点的上一级节点
.//
当不是完整的html时,使用 ,获取相对路径
获取属性
@属性名
获取当前标签 这个属性对应的属性值
//img/@src # 所有img 的scr属性
获取文本
/text()
获取标签里面的文本内容//标签名[contains( text() , ' 文字 ' ) ]
获取包含 文字的 标签
//ol/li//span[contains(text(),'可播放')]
获取特定条件标签
//标签名[@属性名=值]
根据标签的属性值去定位具体的标签
//span[@class='title'] # 可以通过类名进行获取了
//标签名[索引]
索引从1开始
从前边获取//上一级标签/标签名[position()>3]
从第4个开始
从后边获取//上一级标签/标签名[last()]
获取最后一个//上一级标签/标签名[last() - 2]
倒数第3个
结合//ol/li[position()>1][position()<last()-2]
//标签名[text()='值']
根据标签中具体的文本内容定位具体的标签,需要一字不差进行匹配
//ol/li//span[text()='[可播放]'] # 匹配标签内容是[可播放]的标签
边栏推荐
- Install the gold warehouse database of NPC
- HMS core machine learning service
- Redis getting started complete tutorial: hash description
- A complete tutorial for getting started with redis: Pipeline
- C语言快速解决反转链表
- PS style JS webpage graffiti board plug-in
- Redis入门完整教程:Bitmaps
- Redis introduction complete tutorial: client communication protocol
- Google collab trample pit
- [try to hack] wide byte injection
猜你喜欢
【机器学习】手写数字识别
Hit the core in the advanced area of misc in the attack and defense world
Attack and defense world misc advanced area can_ has_ stdio?
[OpenGL] note 29 anti aliasing (MSAA)
A complete tutorial for getting started with redis: redis shell
智力考验看成语猜古诗句微信小程序源码
实战模拟│JWT 登录认证
Redis入门完整教程:哈希说明
Redis入门完整教程:初识Redis
Redis入门完整教程:集合详解
随机推荐
[Jianzhi offer] 6-10 questions
Redis:Redis的事务
Qt个人学习总结
SHP data making 3dfiles white film
A complete tutorial for getting started with redis: getting to know redis for the first time
企业如何跨越数字化鸿沟?尽在云原生2.0
Redis入门完整教程:初识Redis
Feature scaling normalization
ffmpeg快速剪辑
Attack and defense world misc advanced grace-50
P2181 对角线和P1030 [NOIP2001 普及组] 求先序排列
OSEK标准ISO_17356汇总介绍
Sword finger offer 68 - I. nearest common ancestor of binary search tree
Redis入门完整教程:客户端通信协议
Gnawing down the big bone - sorting (II)
【taichi】用最少的修改将太极的pbf2d(基于位置的流体模拟)改为pbf3d
Hit the core in the advanced area of misc in the attack and defense world
Detailed explanation of heap sort code
Principle of lazy loading of pictures
推荐收藏:跨云数据仓库(data warehouse)环境搭建,这货特别干!