当前位置:网站首页>scrapy爬虫框架的使用
scrapy爬虫框架的使用
2022-08-01 09:14:00 【liyan_1013】
首先咱们先下载scrapy包
选择Terminal,创建scrapy项目(scrapy startproject 项目名字)
这时候项目创建好了,我们需要修改settings.py文件
20行,ROBOTSTXT_OBEY = False
把65到67的注释取消(原本它是被注释的)
把40到43的注释取消(原本它是被注释的),并在里面添加请求头,
进入spiders目录创建爬虫文件
scrapy genspider 爬虫文件名 域名
咱们爬取课程名称和学习人数
修改start_urls为所要爬取的地址
全选复制,粘贴
找到要爬取所有信息的父标签,并且父标签是唯一的(可以右键,查看网页源代码,Ctrl+f搜索该标签属性是否只有一个)
通过分析,我们所要爬取的信息在ul的li里面
我们利用Xpath获取所有的li标签
遍历il,定位要爬取的内容
边栏推荐
- Redis middleware (from building to refuse pit)
- 力扣周赛304 6135. 图中的最长环 内向基环树
- Data Analysis 6
- PerViT: 神经网络也能像人类利用外围视觉一样观察图像!
- 安装GBase 8c数据库的时候,报错显示“Resource,如何解决?
- SkiaSharp's WPF self-painted five-ring bouncing ball (case version)
- VoLTE基础学习系列 | 企业语音网简述
- leetcode-6133: maximum number of groupings
- flink sql-client,怎么处理源端与目标增加端,sql-client包括映射表与JOB如
- leetcode 42. 接雨水
猜你喜欢
走进音视频的世界——mp3封装格式
Redis中间件(从搭建到弃坑)
[Beyond programming] When the fig leaf is lifted, when people begin to accept everything
力扣周赛304 6135. 图中的最长环 内向基环树
HoloView 在 jyputer lab/notebook 不显示总结
XX市消防救援指挥中心实战指挥平台多链路聚合解决方案实例
[Tear AHB-APB Bridge by hand]~ Why aren't the lower two bits of the AHB address bus used to represent the address?
USB 协议 (二) 术语
YOLOv7-Pose尝鲜,基于YOLOv7的关键点模型测评
How to get page data
随机推荐
How to get page data
HoloView--Customization
Get the Token from the revised version of Qubutu Bed
What do the values 1, 2, and 3 in nodetype mean?
Redis middleware (from building to refuse pit)
SaaS安全认证综合指南
Flink SQL - client, how to deal with the source side and to increase the target, the SQL - client including mapping table and the JOB such as
【STM32】入门(一):环境搭建、编译、下载、运行
TiDB的真实数据库数据是存在kv和还是pd上?
Prime Ring Problem(素数环问题)
Pod environment variables and initContainer
Custom IP used in PCIE
华为深度学习课程第六、七章
SkiaSharp 之 WPF 自绘 五环弹动球(案例版)
静态Pod、Pod创建流程、容器资源限制
How to ensure the consistency of database and cache data?
flink sql-client,怎么处理源端与目标增加端,sql-client包括映射表与JOB如
在GBase 8c数据库后台,使用什么样的命令来对gtm、dn节点进行主备切换的操作
HPC系统简介
【Untitled】