当前位置:网站首页>一、爬虫基本概念
一、爬虫基本概念
2022-08-04 23:31:00 【beyond谚语】
一、爬虫根据使用场景分类
爬虫: 通过编写程序,模拟浏览器上网,让其去互联网上抓取数据的过程。
① 通用爬虫:抓取系统重要的组成部分,抓取的是一整张页面的数据
② 聚焦爬虫:建立在通用爬虫的基础之上,抓取页面中特定的局部区域内容
③ 增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据
二、反爬机制和反反爬策略
反爬机制: 门户网站通过制定相应的策略或者技术手段,防止爬虫程序来进行对网站数据的爬取
反反爬策略: 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备反爬机制,从而可以获取门户网站的信息
三、robots.txt协议
又称为君子协议,规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取
通过在指定域名后面加入/robots.txt即可查看
例如:https://www.baidu.com/robots.txt,即可看见相关不允许(Disallow)爬取的网页,以及相关允许(Allow)爬取的网页,当然,一般不允许之外的都是允许爬取的网页。
四、http&https协议
Ⅰ,http协议
超文本传输协议(Hyper Text Transfer Protocol,HTTP):服务器和客户端进行数据交互的一种形式
Ⅱ,常用的请求头和响应头信息
请求头:
① User-Agent:请求载体的身份表示
② Connection:请求完毕后,是断开连接还是保持连接
响应头:
Content-Type:服务器响应回客户端的数据类型
例如:https://blog.csdn.net/qq_41264055
按下F12,点击Network,F5刷新重新访问服务器,就可以看见请求头和响应头的一些内容信息
Ⅲ,https协议
基于http协议的安全的超文本传输协议(Hyper Text Transfer Protocol over SecureSocket Layer)
Ⅳ,加密方式
① 对称密钥加密方式
② 非对称密钥加密方式


③ 证书密钥加密方式

边栏推荐
猜你喜欢
随机推荐
Xiaohei's leetcode journey: 95. Longest substring with at least K repeating characters
上课笔记(6)(2)——#742. 周末舞会
[Paper Notes KDD2021] MixGCF: An Improved Training Method for Graph Neural Network-based Recommender Systems
NebulaGraph v3.2.0 Release Note, many optimizations such as the performance of querying the shortest path
The market value of 360 has evaporated by 390 billion in four years. Can government and enterprise security save lives?
Develop a SpaceX website based on the Appian low-code platform
一点点读懂Thremal(二)
Since a new byte of 20K came out, I have seen what the ceiling is
PZK学C语言之字符串函数(一)
入门3D游戏建模师知识必备
4 - "PyTorch Deep Learning Practice" - Backpropagation
Ab3d.PowerToys and Ab3d.DXEngine Crack
uniapp 分享功能-分享给朋友群聊朋友圈效果(整理)
基于深度学习的路面坑洞检测(详细教程)
Kernel函数解析之kernel_restart
d枚举生成位
365天深度学习训练营-学习线路
Basic web in PLSQL
【字符串函数内功修炼】strlen + strstr + strtok + strerror(三)
The role of @Async annotation and how to implement asynchronous listening mechanism









