首頁>>老劉專欄
Unknown robot (identified by 'spider')是什么蜘蛛?
一般的蜘蛛都會在后臺控制面板中顯示名字,例如baidu,google,yahoo,alexa等等,但是如果你用的虛擬主機是cpanel的控制面板,那么發現Unknown robot (identified by 'spider')這個蜘蛛消耗很大的網站流量,那么可以推測這個是百度蜘蛛,因為cpanel的控制面板默認是不識別百度蜘蛛的,所以就會顯示為Unknown robot (identified by 'spider')。而且通過robots.txt是無法禁止這個蜘蛛抓取網站內容的——這些垃圾爬蟲不可能老老實實遵守robots規則,君不見新浪和字節前段時間還因為robots.txt打了官司,大廠都如此,其他爬蟲更別指望。
寶塔屏蔽常見垃圾蜘蛛和掃描工具的兩種辦法:最近觀察網站后臺網站蜘蛛爬取狀況,除了我們常見的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外,還發現有很多垃圾的蜘蛛平繁的爬取本站,通常這些搜索引擎不僅不會帶來流量,因為大量的抓取請求,還會造成主機的CPU和帶寬資源浪費,屏蔽方法也很簡單,按照下面步驟操作即可,原理就是分析指定UA然后屏蔽。
下面給大家帶來兩種屏蔽垃圾蜘蛛的方法
方法一 通過網站Robots.txt來屏蔽
User-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: Uptimebot Disallow: / User-agent: MJ12bot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: ZoominfoBot Disallow: / User-agent: Mail.Ru Disallow: / User-agent: SeznamBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: ExtLinksBot Disallow: / User-agent: aiHitBot Disallow: / User-agent: Researchscan Disallow: / User-agent: DnyzBot Disallow: / User-agent: spbot Disallow: / User-agent: YandexBot Disallow: /
JavaScript
把以上代碼復制到網站robots.txt里面
方法二、通過寶塔面板配置文件判斷來屏蔽垃圾蜘蛛和掃描工具
1.首先進入寶塔面板,文件管理進入/www/server/nginx/conf目錄,新建空白文件kill_bot.conf。然后將以下代碼保存到當前文件中。
#禁止垃圾搜索引擎蜘蛛抓取教程來自癡癡資源網 https://www.chichisvip.com/
if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") { return 403; break; } #禁止掃描工具客戶端 if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) { return 403; break; }
2.保存后返回到寶塔 – 【網站】-【設置】點擊左側 【配置文件】選項卡,在 “#SSL-START SSL相關配置,請勿刪除或修改下一行帶注釋的404規則” 上方空白行插入紅色字體的代碼:“include kill_bot.conf; ” 保存后即可生效,這樣這些蜘蛛或工具掃描網站的時候就會提示403禁止訪問。
希望這個教程能幫助到大家,謝謝支持!
實測下面的屏蔽ip段,效果更好!
使用Nginx文件屏蔽IP地址
如果您的網站在增強版云虛擬主機(Nginx)上運行,請按照本操作配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。
登錄云虛擬主機管理頁面。
找到待配置Nginx文件的增強版云虛擬主機,單擊對應操作列的管理。
在左側導航欄,選擇 。
在NGINX設置頁面的編輯區域,輸入您的配置Nginx文件內容(IP地址屏蔽規則)。
以WordPress網站配置Nginx文件為例。
各場景下IP地址屏蔽的生效規則示例如下所示:
禁止單個IP地址訪問
location / { deny 192.168.13.0; }
禁止多個指定IP地址訪問
location / { deny 192.168.13.0; deny 192.168.13.1; deny 10.1.5.0; }
禁止多個不指定IP地址訪問
location / { allow 192.168.13.0; allow 10.1.5.0; deny all; }
禁止IP地址段訪問
location / { deny 192.168.13.0/24; }
說明 使用掩碼方式配置IP地址段權限時,請您使用網段中最小地址/掩碼方式,否則會出現配置錯誤提示:更新nginx設置失?。簄ginx: [warn] low address bits of **** are meaningless。
Nginx文件編輯完成后,單擊保存設置。
完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示您無訪問權限。
使用.htaccess文件屏蔽IP地址
如果您的網站在普通版Linux操作系統云虛擬主機(Apache)上運行,請按照本方法配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。
登錄云虛擬主機管理頁面。
找到待管理網站文件的Linux操作系統云虛擬主機,單擊對應操作列的管理。
在左側導航欄,選擇 。
在文件管理器頁面,上傳網站程序文件到Linux操作系統云虛擬主機。
關于上傳網站程序文件到云虛擬主機的站點根目錄的具體操作,請參見使用文件管理器管理文件。
說明 如果您使用FTP工具管理云虛擬主機上的網站文件,具體操作,請參見上傳網站文件到Linux操作系統云虛擬主機。
在Linux操作系統云虛擬主機的/htdocs目錄下,找到需要查看或修改的.htaccess文件,單擊對應操作列的查看。
說明 如果您使用FTP客戶端查看或修改.htaccess文件,該文件一般為隱藏文件,關于如何顯示隱藏文件的具體操作,請參見如何顯示FTP隱藏的文件。通過FTP客戶端連接云虛擬主機后,您可以在遠程站點區域通過下載、編輯和上傳操作來完成.htaccess文件的修改。
在彈出的文件查看/編輯頁面的編輯區域,輸入您的.htaccess文件內容(IP地址屏蔽規則)。
以WordPress網站配置.htaccess文件為例。
各場景下IP地址屏蔽的生效規則示例如下所示:
禁止單個IP地址訪問
Order Allow,Deny Allow from allDeny from 192.0.2.0
禁止多個指定IP地址訪問
Order Allow,Deny Allow from allDeny from 192.0.2.1 192.0.2.0
或者
Order Deny,Allow Deny from 192.0.2.1 192.0.2.0
禁止多個不指定IP地址訪問
Order Deny,Allow Deny from allAllow from 192.0.2.1 192.0.2.0
禁止IP地址段訪問
Order Allow,Deny Allow from allDeny from 192.168.13.0/24
.htaccess文件編輯完成后,單擊確認。
完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示無訪問權限。
猜你喜歡
- 2022-11-10 【官方文檔】百度搜索網站被黑防范指南
- 2022-11-03 【干貨必備】百度搜索優質內容指南
- 2022-08-01 百度隱藏“快照”功能:原因未知-百度快照沒了?
- 2022-06-20 淺析“百度搜索基礎信息設置規范”!
- 2022-06-15 SEO尷尬,有排名,沒流量,沒咨詢,怎么辦?
- 2022-05-16 IE瀏覽器宣布6月16日退役 Edge瀏覽器將接棒
- 搜索
-
- 2022-11-17 全中國一共有多少IP地址?
- 2022-11-10 【官方文檔】百度搜索網站被黑防范指南
- 2022-11-10 PbootCMS 默認Sqlite數據庫···
- 2022-11-03 【干貨必備】百度搜索優質內容指南
- 2022-11-03 SEM投放前,需要做哪些準備?
- 2022-11-02 淺談代運營服務的商業模式
- 2022-11-01 SQlite刪除數據后DB大小無改變解決···
- 2022-11-01 在寶塔面板通過偽靜態屏蔽垃圾蜘蛛的方法
- 2022-10-31 制造業SEO,怎么做是正確的,高性價比!
- 2022-10-31 Unknown robot是什么蜘蛛?怎···
- 2022-10-26 win7/win10其他電腦無法訪問我的···
- 2022-10-24 中小企業打廣告去哪個平臺?一般選擇哪種推···
- 2019-11-01 Origin DNS error:使用百···
- 2020-12-01 一級域名好還是二級域名好?
- 2020-10-13 百度抓取診斷工具一直抓取失敗怎么辦?
- 2020-06-20 “401 - 未授權: 由于憑據無效,訪···
- 2019-12-09 域名解析后,網站返回狀態碼511應對方法
- 2021-01-06 百度移動端的搜索結果上線“踩頂”功能,對···
- 2020-09-03 element.style樣式的修改
- 2019-08-12 網站出現“403,服務器上文件或目錄拒絕···
- 2019-11-06 正確打開.db數據庫文件的兩種方式,避免···
- 2020-04-10 百度下拉框怎么刷?刷百度下拉框軟件原理及···
- 2020-10-20 UC神馬搜索怎么做快速排名優化
- 2020-09-27 css3實現一個div設置多張背景圖片
- 2019-06-17 「seo高手進階」百度高級搜索命令及其組···
- 2020-05-19 網絡推廣在精不在多:提供正面價值為出發點···
- 2020-06-10 新站優化必備操作,你都會了嗎?
- 2019-11-11 時代變了,大人!HTTPS升級詳細配置步···
- 2019-09-14 為老年用戶做網站體驗設計應該特別注意的細···
- 2019-11-04 域名解析中cname和A記錄,對于百度優···
- 2021-12-15 SEO排名,核心影響因素到底是什么,真了···
- 2021-03-22 如何在織夢文章中上傳視頻及調用視頻
- 2019-05-16 什么是蜘蛛池?深入解析蜘蛛池原理
- 2019-03-05 公安備案怎么操作?網站公安備案詳細流程
- 2019-12-02 網站存在什么特點會可能會導致搜索引擎不感···
- 2022-08-23 JS代碼實現導航菜單欄隨滾動條向下滾動時···
- 熱門標簽
-
- 401錯誤
- 401未授權
- 語義效應
- 話術技巧
- tab切換
- 選項卡滑動切換
- 百度
- 谷歌
- pagerank算法
- 算法原理
- 達克效應
- 認知局限
- 交流分享
- webp轉GIF
- webp格式轉GIF動圖
- webp to gif
- 百度快排
- 快速排名
- SEO快排
- 錨定效應
- 萬詞霸屏
- SEO優化
- 按天計費系統
- 搜索推廣模式對比
- 合肥seo
- seo公司
- 合肥優化公司
- 選擇seo公司
- 互聯網黑話
- 2019it黑話
- SEO優化師
- seo工資
- SEO快速排名
- 百度熊掌號
- 網站被k
- 收錄消失
- FTP
- ftp隱藏文件
- 百度公告
- 在家辦公
- seo前景
- seo發展
- 2019冬至
- 冬至
- seo外包
- 外包公司
- seo職業發展
- 網頁劫持
- seo計費系統
- spider爬蟲
- 頭條權重
- 私域流量
- 中文搜索
- 頭條搜索
- 中文搜索引擎起源和發展
- 灰色樣式
- 偽靜態
- 純靜態
- seo友好度
- 企業主
- 網站改版
- seo部署
- seo專家
- seo思維塑造
- seo策略
- seo平衡
- seo和可訪問性
- seo誤區
- seoer
- 提升seo價值
- seo高手
- seo套路
- 百度小程序
- 小程序
- 百度算法
- 算法更新
- 網站排名波動
- 網站懲罰
- 360算法
- 后羿算法
- 屏蔽右鍵
- 禁止右鍵
- 禁止查看源代碼
- 友情鏈接
- 被懲罰鏈接
- 黑帽SEO
- 刷快排
- seo改版
- 網站改版周期
- seo顧問
- 改版后SEO
- SEO
- SEO實踐
- 301重定向
- 首選域名
- 301跳轉
- 重復內容
- 重復頁面
- 互聯網名詞