当前位置:网站首页>使用scrapy 把爬到的数据保存到mysql 防止重复
使用scrapy 把爬到的数据保存到mysql 防止重复
2022-08-02 09:15:00 【51CTO】
1.环境建立
1.使用xmapp安装php, mysql ,phpmyadmin
2.安装python3,pip
3.安装pymysql
3.(windows 略)我这边是mac,安装brew,用brew 安装scrapy
2.整个流程
1. 创建数据库和数据库表,准备保存
2.写入爬虫目标URL,进行网络请求
3.对爬返回数据进行处理,得到具体数据
4.对于具体数据保存到数据库中
2.1.创建数据库
首先创建一个数据库叫scrapy,然后创建一个表article,我们这里给body加了唯一索引,防止重复插入数据
弄好以后是这样的。
2.2 先看下整个爬虫项目的结构
quotes_spider.py是核心,负责对网络请求和对内容进行处理,然后对整理好的内容抛给pipelines进行具体处理,保存到数据库中,这样不会影响速度。
其他的看 图说明
2.2 写入爬虫目标URL,进行网络请求
start_requests 就是要写入具体要爬的URL
parse就是核心的对返回的数据进行处理的地方,然后以item的形式抛出,接下来定义好下一个要爬的内容
2.3 items
2.4 pipelines
2.5 配置
边栏推荐
猜你喜欢

编程与哲学(2)——输出是为了更好的输入

Have you ever learned about these architecture designs and architecture knowledge systems?(Architecture book recommendation)

Jenkins--部署--3.1--代码提交自动触发jenkins--方式1
主流监控系统工具选型及落地场景参考

UVM事务级建模

RestTemlate源码分析及工具类设计

PyCharm使用教程(详细版 - 图文结合)

【论文阅读】Distilling the Knowledge in a Neural Network

node封装一个图片拼接插件

不用Swagger,那我用啥?
随机推荐
EdrawMax Crack,多合一的图表应用程序
小程序云开发(十):渐变与动画
HCIP笔记第十三天
LeetCode第三题(Longest Substring Without Repeating Characters)三部曲之一:解题思路
Docker内MySQL主从复制学习,以及遇到的一些问题
Nodejs3day(express简介,express创建基本Web服务器,托管静态资源,nodemon下载及出现的问题,中间件,编写GET,POST,JSONP接口)
spark:商品热门品类TOP10统计(案例)
pnpm: Introduction
Jenkins--部署--3.1--代码提交自动触发jenkins--方式1
YugaByte adds Voyager migration service in its 2.15 database update
HCIA静态路由综合练习
The packet capture tool Charles modifies the Response step
Jenkins--基础--6.1--Pipeline--介绍
AlterNET Studio用户界面设计功能扩展
曲折的tensorflow安装过程(Tensorflow 安装问题的解决)
location对象,navigator对象,history对象学习
Postman download localization of installation and use
[Concurrent programming] - Thread pool uses DiscardOldestPolicy strategy, DiscardPolicy strategy
了解下C# 不安全代码
动态规划每日一练(3)

