
重慶網(wǎng)站建設(shè)公司在網(wǎng)站優(yōu)化這一塊里面,robots文件的設(shè)置是占據(jù)很重要的位置的。robots文件是什么?它是網(wǎng)站跟爬蟲間的協(xié)議,也就是說你的網(wǎng)站那些內(nèi)容想被爬取,哪些內(nèi)容不想被爬取都是通過robots文件來告訴蜘蛛的。當(dāng)搜索蜘蛛去訪問一個站點的時候它會首先檢查該站點根目錄下是否存在robots.txt。有些站長一直說自己網(wǎng)站沒有收錄,有時候可能就是因為robots文件沒設(shè)置好。
什么是robots文件?
搜索引擎自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并且獲取網(wǎng)頁信息是通過一種叫做robot的程序,又稱spider,也就是我們經(jīng)常說的蜘蛛。
而robots文件就是站長和蜘蛛之間達成的一個協(xié)議或聲明,在這個文件中就聲明了網(wǎng)站中不想被robot訪問的部分,這樣該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄,或者搜索引擎只收錄指定的內(nèi)容。
注意:robots.txt協(xié)議并不是一個規(guī)范,只是一種約定俗成,所以并不能保證網(wǎng)站的隱私。
robots.txt文件怎么寫?
首先要認(rèn)識User-agent、Disallow、Allow是什么意思:
User-agent表示定義哪個搜索引擎,如User-agent:Baiduspider,定義百度蜘蛛;
Disallow表示禁止訪問;
Allow表示運行訪問;
通過以上三個命令,可以組合多種寫法,允許哪個搜索引擎訪問或禁止哪個頁面,且對字母大小有限制,文件名必須為小寫字母,所有的命令第一個字母需大寫,其余的小寫。且命令之后要有一個英文字符空格。
robots.txt寫法詳解
1、禁止所有所有引擎訪問所有目錄
User-agent: *
Disallow: /
2、允許所有搜索引擎訪問所有目錄
User-agent: *
Allow: /
這里的*表示所有
3、禁止爬蟲訪問網(wǎng)站中的某些目錄
User-agent: *
Disallow: /123
這種是禁止爬蟲訪問/123開頭的所有文件,像http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取
User-agent: *
Disallow: /123/
禁止爬蟲訪問/123/目錄下面的所有文件。
4、禁止爬蟲訪問某一類文件:
User-agent: *
Disallow: /*.css$ 禁止訪問所有css結(jié)尾的文件
Disallow: /*.js$ 禁止訪問所有js結(jié)尾的文件
Disallow: /*.php$ 禁止訪問所有php結(jié)尾的文件
Disallow: /123/*.jpg$ 禁止訪問/123/目錄下的jpg結(jié)尾的文件
注意:*表示所有,$表示結(jié)尾,上面的漢字不用寫進robots去?。?!
5、禁止訪問網(wǎng)站中的動態(tài)頁面:
User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止訪問/123/目錄下的動態(tài)頁面
注意:?表示動態(tài)路徑,*表示所有。
6、禁止訪問某些字母開頭的目錄
可以巧用這個技巧來隱藏我們網(wǎng)站的一些目錄,例如網(wǎng)站后臺。假設(shè)www.vipshan.com的后臺目錄是/abcdef/可以這樣寫:
User-agent: *
Disallow: /abc*
注意:這樣可以就表示所有abc開頭的目錄都不能訪問,所以要注意一下不要禁止了需要被抓取的欄目。
7、禁止訪問和允許訪問同時存在的情況
假設(shè)/123/這個欄目下有1.html、2.html、3.html這樣三個文件,要允許訪問1.html而其他的要禁止,可以這樣寫:
User-agent: *
Allow: /123/1.html
Disallow: /123/
8、自定義搜索引擎:
用User-agent:來定義搜索引擎,*表示所有
百度爬蟲名字:11Baiduspider
谷歌爬蟲名字:Googlebot(列舉兩個,其他的名稱自己搜下)
User-agent: Baiduspider表示自定義百度蜘蛛
User-agent: Googlebot表示自定義谷歌蜘蛛
這個可以參考淘寶的。
robots文件設(shè)置注意事項
1、文件后綴及大小寫
robots文件的后綴必須是.txt;robots文件必須全小寫字母命名;在寫robots文件的時候,Disallow、Allow、Sitemap等詞首字母必須大寫,后面的字母則要小寫。
2、注意空格
特別注意,在書寫robots事,應(yīng)用英文狀態(tài)下的冒號,并且冒號后面必須有一個英文狀態(tài)下的空格。
3、robots文件放在哪?
robots.txt應(yīng)放置于網(wǎng)站的根目錄下。如果想單獨定義搜索引擎的漫游器訪問子目錄時的行為,那么可以將自定的設(shè)置合并到根目錄下的robots.txt,或者使用robots元數(shù)據(jù)。
4、都需要抓取是否就不用設(shè)置?
有的站長可能覺得如果網(wǎng)站所有文件都需要蜘蛛抓取,那就沒必要添加robots文件,因為如果這個文件不存在,那蜘蛛也將默認(rèn)訪問網(wǎng)站上所有沒有被口令保護的頁面。這里要注意一種情況,如果用戶試圖訪問一個不存在的url,服務(wù)器就會在日志中記錄404錯誤。當(dāng)蜘蛛來尋找不存在的robots文件時,服務(wù)器也將在日志中記錄一條404錯誤,所以網(wǎng)站應(yīng)該都要設(shè)置robots文件。
5、為了增加網(wǎng)站收錄率robots文件中設(shè)置所有文件都能被抓取可以嗎?
不可以。因為網(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄,也不會增加網(wǎng)站的收錄率,還只會浪費服務(wù)器資源。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引這些文件。
robots.txt有什么用?
在seo這一塊里面,robots.txt可是占據(jù)著重要地位的。那它到底有什么用呢?
1、提高收錄效果
每個網(wǎng)站肯定不可能所有的頁面都是很重要的,重要重要和非重要的頁面。如果通過robots文件減少蜘蛛對非重要頁面的抓取,把爬行重點放在重要頁面上,可以幫助重要頁面獲取更多的權(quán)重,這樣網(wǎng)站的友好度也會有所提高。比如還有像建站時會產(chǎn)生一些臨時頁面,如果沒有對這些頁面進行設(shè)置的話,蜘蛛也會抓取這些頁面,這樣就會影響到對重點頁面的抓取。
2、提高訪問速度
由于搜索引擎在進行抓取的時候會耗費服務(wù)器帶寬,如果網(wǎng)站頁面過多的話就會導(dǎo)致網(wǎng)站的加載速度變慢,這樣是會影響到爬蟲的抓取以及用戶的瀏覽體驗。如果在robots文件里面設(shè)置禁止抓取一些不那么重要的頁面,就可以提高蜘蛛抓取的效率,也能節(jié)省更多的帶寬,提高訪問速度。
立即購買

地址:重慶市渝中區(qū)上清寺鑫隆達B座28-8
郵編:400015
電話:023-63612462
EMAIL:cnjl_net@163.com
2022 渝ICP備09007657號-7
網(wǎng)警備案號:500103015-00277