
什么是 robots.txt ?
robots.txt 是一個純文本文件,通過在這個文件中聲明該網(wǎng)站中不想被 robots 訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。 當一個搜索機器人訪問一個站點時,它會首先檢查該站點根目錄下是否存在 robots.txt ,如果找到,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍,如果該文件不存在,那么搜索機器人就沿著鏈接抓取。 robots.txt 必須放置在一個站點的根目錄下,而且文件名必須全部小寫。 網(wǎng)站 URL相應的 robots.txt 的 URL
http://www.w3.org/ http://www.w3.org/robots.txt http://www.w3.org:80/ http://www.w3.org:80/robots.txt http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt http://w3.org/ http://w3.org/robots.txt
robots.txt 的語法
"robots.txt" 文件包含一條或更多的記錄,這些記錄通過空行分開(以 CR,CR/NL, or NL 作為結束符),每一條記錄的格式如下所示:
"<field>:<optionalspace><value><optionalspace>" 。 在該文件中可以使用 # 進行注解,具體使用方法和 UNIX 中的慣例一樣。該文件中的記錄通常以一行或多行 User-agent 開始,后面加上若干 Disallow 行 , 詳細情況如下:
User-agent:
該項的值用于描述搜索引擎 robot 的名字,在 "robots.txt" 文件中,如果有多條 User-agent 記錄說明有多個 robot 會受到該協(xié)議的限制,對該文件來說,至少要有一條 User-agent 記錄。如果該項的值設為 * ,則該協(xié)議對任何機器人均有效,在 "robots.txt" 文件中, "User-agent : *" 這樣的記錄只能有一條。
Disallow :
該項的值用于描述不希望被訪問到的一個 URL ,這個 URL 可以是一條完整的路徑,也可以是部分的,任何以 Disallow 開頭的 URL 均不會被 robot 訪問到。例如 "Disallow: /help" 對 /help.phpl 和 /help/index.phpl 都不允許搜索引擎訪問,而 "Disallow: /help/" 則允許 robot 訪問 /help.phpl ,而不能訪問 /help/index.phpl 。 任何一條 Disallow 記錄為空,說明該網(wǎng)站的所有部分都允許被訪問,在 "/robots.txt" 文件中,至少要有一條 Disallow 記錄。如果 "/robots.txt" 是一個空文件,則對于所有的搜索引擎 robot ,該網(wǎng)站都是開放的。
下面是一些 robots.txt 基本的用法:
l 禁止所有搜索引擎訪問網(wǎng)站的任何部分:
User-agent: * Disallow: / l 允許所有的 robot 訪問 User-agent: * Disallow: 或者也可以建一個空文件 "/robots.txt" file l 禁止所有搜索引擎訪問網(wǎng)站的幾個部分(下例中的 cgi-bin 、 tmp 、 private 目錄) User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ l 禁止某個搜索引擎的訪問(下例中的 BadBot ) User-agent: BadBot Disallow: / l 只允許某個搜索引擎的訪問(下例中的 WebCrawler ) User-agent: WebCrawler Disallow: User-agent: * Disallow: /
重慶網(wǎng)絡公司立即購買

地址:重慶市渝中區(qū)上清寺鑫隆達B座28-8
郵編:400015
電話:023-63612462
EMAIL:cnjl_net@163.com
2022 渝ICP備09007657號-7
網(wǎng)警備案號:500103015-00277