搜索引擎蜘蛛ip照妖鏡
通過該工具可以識別是否是真的搜索引擎蜘蛛IP,很多是通過user-agent偽造的,幫大家節省垃圾流量帶寬.不少偽造的爬蟲程序會偽造 user-agent冒充baidu、google等搜索擎,好在google,baidu,bing等搜索引擎都提供一個DNS反向IP查詢功能。
目前支持識別的搜索引擎ip蜘蛛:
百度蜘蛛;谷歌蜘蛛;神馬蜘蛛;必應蜘蛛;搜狗蜘蛛;yandex蜘蛛;360蜘蛛;頭條蜘蛛
使用場景
對于一個攻擊者,或者采集者,偽裝成搜索引擎,很容易躲過你的肉眼檢查,興奮的你還在為搜索引擎來訪而洋洋得意的時候,其實是個假蜘蛛
如果你的站點對搜索引擎蜘蛛要求比較精細,你可以通過openresty的resty.dns.resolver模塊+user-agent,在content_by_lua_file中實現精確的訪客控制!
通過ip反向查詢蜘蛛,可以讓假引擎蜘蛛現行,直接扼殺在黑名單中!
識別出假蜘蛛處理的方法有很多,不再一一細說!
實現原理
部分官方已明確給出了確定真實蜘蛛的方法,比如百度官網所說,可以使用dns反向解析,可以確認正確的蜘蛛,比如:
E:\bugscansplit>nslookup 220.181.108.80 服務器: public1.114dns.com Address: 114.114.114.114 名稱: baiduspider-220-181-108-80.crawl.baidu.com Address: 220.181.108.80
那么后綴為.baidu.com的就是真實的蜘蛛,其他同理,都有相應的反向域名后綴標志,通過收集這些后綴,就形成了這個工具!
以下是收集一部分的搜索引擎的特征
搜索引擎 | user-agent | 備注 |
---|---|---|
百度 | Baiduspider/2.0 Baiduspider-image |
常見百度旗下同類型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞) 百度蜘蛛IP:
|
Bing | bingbot/2.0 | Bing蜘蛛IP:
|
Googlebot/2.1 | Google蜘蛛IP:
|
|
搜狗sogou | Sogou+web+spider/4.0 | 搜狗蜘蛛IP:
|
神馬搜索 | Yisouspider | 原屬一搜蜘蛛。 神馬搜索IP:
|
360搜索 | 360Spider | 360搜索蜘蛛IP:
|
今日頭條 | Bytespider | 今日頭條蜘蛛IP:
|
Yahoo | Yahoo! | Yahoo蜘蛛IP:
|
以下是收集一部分的未知的爬蟲特征
爬蟲名稱 | user-agent 特征 | 備注 |
---|---|---|
The Knowledge AI | The+Knowledge+AI |
爬蟲IP:
|
AhrefsBot | AhrefsBot/6.1 |
AhrefsBot是一個營銷網站的爬取蜘蛛,負責分析網站信息。(建議禁止這些IP)爬蟲IP:
|
SemrushBot | SemrushBot/6~bl |
SemrushBot也是一個營銷網站的爬取蜘蛛,負責分析網站信息。(建議禁止這些IP)爬蟲IP:
|