robot.txt是什麽
說起robot.txt文件相信站長朋友們應該不會陌生(shēng),幾乎每個網站的根目錄下(xià)都有這樣一(yī)個文件,但是真正了解它的人卻非常少,那麽,robot.txt是什麽?我(wǒ)(wǒ)們就一(yī)起通過文章内容了解下(xià)吧。
robot.txt是什麽?
robots.txt是一(yī)個協議,是搜索引擎訪問網站時第一(yī)個要查看的文件,它存在的目的是告訴搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取。
當spider訪問一(yī)個站點時,會首先檢查該站點根目錄下(xià)是否存在robots.txt,如果存在,spider會按照文件中(zhōng)的内容來确定訪問的範圍;如果該文件不存在,所有的spider将能夠訪問網站上所有沒有被口令保護的頁面。
具體(tǐ)介紹:
1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中(zhōng),如果有多條User-agent記錄說明有多個robot會受到\robots.txt\的限制,對該文件來說,至少要有一(yī)條User-agent記錄。如果該項的值設爲*,則對任何robot均有效,在\robots.txt\文件中(zhōng),\User-agent:*\這樣的記錄隻能有一(yī)條。
360搜索支持user-agent命令,包括使用通配符的user-agent命令。
2、Disallow命令指定不建議收錄的文件、目錄。
Disallow值可以是一(yī)條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開(kāi)頭的URL不會被 robot訪問。
3、Allow命令指定建議收錄的文件、目錄。
Allow值用于描述希望被訪問的一(yī)組URL,它的值也可以是一(yī)條完整的路徑,也可以是路徑的前綴,以Allow項的值開(kāi)頭的URL 是允許robot訪問的。
User-agent: * 這裏的*代表所有的搜索引擎種類,*是一(yī)個通配符,*也可以替換成其他的蜘蛛名稱,例如:Googlebot、yisouspider,表示屏蔽特定搜索引擎的蜘蛛
Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下(xià)面的目錄
Disallow: /require/ 這裏定義是禁止爬尋require目錄下(xià)面的目錄
Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下(xià)面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下(xià)的所有以\.htm\爲後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中(zhōng)所有包含問号(?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下(xià)面的adc.html文件。
Allow: /cgi-bin/ 這裏定義是允許爬尋cgi-bin目錄下(xià)面的目錄
Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以\.htm\爲後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖,告訴爬蟲這個頁面是網站地圖
了解了robot.txt是什麽後相信大(dà)家也可以在日常工(gōng)作中(zhōng)很好的利用。不過還有一(yī)些注意事項是需要大(dà)家引起重視的,以免出現錯誤。
- << robots.txt怎麽寫
- 如何管理企業網站 >>