当前位置:网站首页>如何识别假爬虫?
如何识别假爬虫?
2022-07-31 16:34:00 【oHuangBing】
我们在检查网站日志的时候,经常会遇到各种各样的爬虫。有的是正常的爬虫,例如:搜索引擎爬虫(百度搜索引擎爬虫、Google 搜索引擎爬虫,Bing 搜索引擎爬虫、YandexBot 等),还有一些各种功能的爬虫,可以在这里查看:list crawlers。
但是,互联网上并不是所有的爬虫都是有益的,有些爬虫为了极力隐藏自己,于是就会学习真实爬虫的一些特征。还有一些是假爬虫,也就是伪造那些搜索引擎的爬虫,会来抓取你网站的数据,虽然 User-agent 看起来与搜索引擎的无异,但是 IP 却不属于该搜索引擎的,这个时候据需要我们精准的识别这些假爬虫的 IP 地址。
通过爬虫 IP 查询工具,我们便可以很轻松的识别假爬虫,例如:
34.68.229.128 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
这个是我简化了的日志记录,前面是 IP 地址,后面是访问爬虫的 User-agent ,通过 User-agent 我们可以看出来他是一个 Google 搜索引擎的蜘蛛。
通过查询,我们可以看到这是一个假的 Google 蜘蛛,截图如下:

我们只需要输入假爬虫的 IP 地址,就可以看出来爬虫的一些信息。这样不管是真假李逵(真假爬虫)都逃不出我们的火眼金睛了。
同时如果我们想查看更多的假爬虫,可以到这里去:list crawlers fake bot,整理了互联网上常见的假爬虫。
总结
通过介绍什么是假爬虫,以及如何通过爬虫 IP 查询这个工具,精准识别假爬虫。
边栏推荐
- 联邦学习:联邦场景下的多源知识图谱嵌入
- Premiere Pro 2022 for (pr 2022)v22.5.0
- [Network Communication 3] Advantech Gateway Modbus Service Settings
- 【luogu P8326】Fliper (Graph Theory) (Construction) (Eulerian Circuit)
- EF Core 2.2中将ORM框架生成的SQL语句输出到控制台
- Intelligent bin (9) - vibration sensor (raspberries pie pico implementation)
- Qt practical cases (54) - using transparency QPixmap design pictures
- Concurrency, Timing and Relativity
- [7.28] Code Source - [Fence Painting] [Appropriate Pairs (Data Enhanced Version)]
- Design and Implementation of Compiler Based on C Language
猜你喜欢

【C语言】LeetCode27.移除元素

基于Redis(SETNX)实现分布式锁,案例:解决高并发下的订单超卖,秒杀
![[pytorch] 1.7 pytorch and numpy, tensor and array conversion](/img/ca/b943ff8f59f08e9e23b1ba416c79a0.png)
[pytorch] 1.7 pytorch and numpy, tensor and array conversion

智能垃圾桶(八)——红外对管传感器(树莓派pico)

Implementing DDD based on ABP

深度学习机器学习理论及应用实战-必备知识点整理分享

Qt practical cases (54) - using transparency QPixmap design pictures

2022年整理LeetCode最新刷题攻略分享(附中文详细题解)

认识异常 (看完这篇你就懂了)

Graham‘s Scan法求解凸包问题
随机推荐
6. 使用 Postman 工具高效管理和测试 SAP ABAP OData 服务
adb shell 报错error: device unauthorized
牛客 HJ16 购物单
Replication Latency Case (3) - Monotonic Read
Golang go-redis cluster模式下不断创建新连接,效率下降问题解决
Mariabackup implements incremental data backup for Mariadb 10.3
2020微信小程序反编译教程(小程序反编译源码能用吗)
Qt practical cases (54) - using transparency QPixmap design pictures
MySQL多表联合查询
Implementing DDD based on ABP
2022年必读的12本机器学习书籍推荐
研发过程中的文档管理与工具
2020 WeChat applet decompilation tutorial (can applet decompile source code be used)
牛客网刷题(三)
After the form is submitted, the page does not jump [easy to understand]
[TypeScript] In-depth study of TypeScript type operations
Handling write conflicts under multi-master replication (4) - multi-master replication topology
Character pointer assignment [easy to understand]
LeetCode_733_图像渲染
tensorflow2.0 cnn(layerwise)