当前位置:网站首页>如何识别假爬虫?
如何识别假爬虫?
2022-07-31 16:34:00 【oHuangBing】
我们在检查网站日志的时候,经常会遇到各种各样的爬虫。有的是正常的爬虫,例如:搜索引擎爬虫(百度搜索引擎爬虫、Google 搜索引擎爬虫,Bing 搜索引擎爬虫、YandexBot 等),还有一些各种功能的爬虫,可以在这里查看:list crawlers。
但是,互联网上并不是所有的爬虫都是有益的,有些爬虫为了极力隐藏自己,于是就会学习真实爬虫的一些特征。还有一些是假爬虫,也就是伪造那些搜索引擎的爬虫,会来抓取你网站的数据,虽然 User-agent 看起来与搜索引擎的无异,但是 IP 却不属于该搜索引擎的,这个时候据需要我们精准的识别这些假爬虫的 IP 地址。
通过爬虫 IP 查询工具,我们便可以很轻松的识别假爬虫,例如:
34.68.229.128 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
这个是我简化了的日志记录,前面是 IP 地址,后面是访问爬虫的 User-agent ,通过 User-agent 我们可以看出来他是一个 Google 搜索引擎的蜘蛛。
通过查询,我们可以看到这是一个假的 Google 蜘蛛,截图如下:
我们只需要输入假爬虫的 IP 地址,就可以看出来爬虫的一些信息。这样不管是真假李逵(真假爬虫)都逃不出我们的火眼金睛了。
同时如果我们想查看更多的假爬虫,可以到这里去:list crawlers fake bot,整理了互联网上常见的假爬虫。
总结
通过介绍什么是假爬虫,以及如何通过爬虫 IP 查询这个工具,精准识别假爬虫。
边栏推荐
- 【pytorch】pytorch 自动求导、 Tensor 与 Autograd
- 牛客 HJ20 密码验证合格程序
- Last write wins (discards concurrent writes)
- Mariabackup implements incremental data backup for Mariadb 10.3
- 华为顶级工程师历时9年总结的“趣谈网络协议”PDF文档,太强了
- The arm button controls the flashing of the led light (embedded button experiment report)
- 自动化测试—web自动化—selenium初识
- Character pointer assignment [easy to understand]
- 【pytorch】1.7 pytorch与numpy,tensor与array的转换
- 百度网盘网页版加速播放(有可用的网站吗)
猜你喜欢
tooltips使用教程(鼠标悬停时显示提示)
Automated testing - web automation - first acquaintance with selenium
.NET 20th Anniversary Interview - Zhang Shanyou: How .NET technology empowers and changes the world
How to switch remote server in gerrit
Unity 之 图集属性详解和代码示例 -- 拓展一键自动打包图集工具
仿生毛毛虫机器人源码
使用 Postman 工具高效管理和测试 SAP ABAP OData 服务的试读版
EF Core 2.2中将ORM框架生成的SQL语句输出到控制台
联邦学习:联邦场景下的多源知识图谱嵌入
C语言-函数
随机推荐
Golang 小数操作之判断几位小数点与四舍五入
Baidu cloud web speed playback (is there any website available)
【愚公系列】2022年07月 Go教学课程 021-Go容器之切片操作
C language - function
LeetCode_733_图像渲染
Character pointer assignment [easy to understand]
软件实现AT命令操作过程
【7.29】代码源 - 【排列】【石子游戏 II】【Cow and Snacks】【最小生成数】【数列】
牛客 HJ17 坐标移动
字符串反转的实现方法总结「建议收藏」
自动化测试—web自动化—selenium初识
IP协议从0到1
[TypeScript] In-depth study of TypeScript type operations
利用PHP开发具有注册、登陆、文件上传、发布动态功能的网站
selenium的常见方法及使用
How to install CV2 smoothly in Anaconda
npm安装时卡在sill idealTree buildDeps,npm安装速度慢,npm安装卡在一个地方不动
Foreign media right, apple on May be true in inventory
牛客 HJ3 明明的随机数
Multi-datacenter operation and detection of concurrent writes