当前位置:网站首页>scrapy爬虫框架的使用
scrapy爬虫框架的使用
2022-08-01 09:14:00 【liyan_1013】
首先咱们先下载scrapy包

选择Terminal,创建scrapy项目(scrapy startproject 项目名字)

这时候项目创建好了,我们需要修改settings.py文件
20行,ROBOTSTXT_OBEY = False

把65到67的注释取消(原本它是被注释的)

把40到43的注释取消(原本它是被注释的),并在里面添加请求头,


进入spiders目录创建爬虫文件
scrapy genspider 爬虫文件名 域名

咱们爬取课程名称和学习人数

修改start_urls为所要爬取的地址

全选复制,粘贴
找到要爬取所有信息的父标签,并且父标签是唯一的(可以右键,查看网页源代码,Ctrl+f搜索该标签属性是否只有一个)

通过分析,我们所要爬取的信息在ul的li里面

我们利用Xpath获取所有的li标签

遍历il,定位要爬取的内容


边栏推荐
猜你喜欢
随机推荐
mysql查看cpu使用情况
GBase 8c中怎么查询数据库配置参数,例如datestyle
PerViT: 神经网络也能像人类利用外围视觉一样观察图像!
灵魂发问:MySQL是如何解决幻读的?
将aof文件转换为命令waoffle安装和使用
How to get page data
[Dataset] Dataset summary of various insulators, bird's nests and anti-vibration hammers
HoloView--live data
安装GBase 8c数据库的时候,报错显示“Resource,如何解决?
Pod environment variables and initContainer
sql server, FULL模式, dbcc shrinkfile(2,1) 不能收缩事务日志,还是原来的大小,是为什么?
Optimal dazzle Oracle database support what kinds of type of the time and date
[Interview: Concurrency 39: Multithreading: Thread Pool] ThreadPoolExecutor Class - Submit, Stop
【Unity3D】相机
华为深度学习课程第九章——卷积神经网络以及案例实践
Parsing MySQL Databases: "SQL Optimization" vs. "Index Optimization"
Idea common plugins
leetcode-6132:使数组中所有元素都等于零
Pod环境变量和initContainer
Is the real database data of TiDB stored in kv and pd?




![[Dataset] Dataset summary of various insulators, bird's nests and anti-vibration hammers](/img/02/927f4e228eb3abbd76cade5be00352.png)




