robot.txt是什麽

2019年03月05日來源：天璐網絡浏覽：411

說起robot.txt文件相信站長朋友們應該不會陌生(shēng)，幾乎每個網站的根目錄下(xià)都有這樣一(yī)個文件，但是真正了解它的人卻非常少，那麽，robot.txt是什麽?我(wǒ)(wǒ)們就一(yī)起通過文章内容了解下(xià)吧。

robot.txt是什麽

robot.txt是什麽?

robots.txt是一(yī)個協議，是搜索引擎訪問網站時第一(yī)個要查看的文件，它存在的目的是告訴搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取。

當spider訪問一(yī)個站點時，會首先檢查該站點根目錄下(xià)是否存在robots.txt，如果存在，spider會按照文件中(zhōng)的内容來确定訪問的範圍;如果該文件不存在，所有的spider将能夠訪問網站上所有沒有被口令保護的頁面。

具體(tǐ)介紹：

1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中(zhōng)，如果有多條User-agent記錄說明有多個robot會受到\robots.txt\的限制，對該文件來說，至少要有一(yī)條User-agent記錄。如果該項的值設爲*，則對任何robot均有效，在\robots.txt\文件中(zhōng)，\User-agent:*\這樣的記錄隻能有一(yī)條。

360搜索支持user-agent命令，包括使用通配符的user-agent命令。

2、Disallow命令指定不建議收錄的文件、目錄。

Disallow值可以是一(yī)條完整的路徑，也可以是路徑的非空前綴，以Disallow項的值開(kāi)頭的URL不會被 robot訪問。

3、Allow命令指定建議收錄的文件、目錄。

Allow值用于描述希望被訪問的一(yī)組URL，它的值也可以是一(yī)條完整的路徑，也可以是路徑的前綴，以Allow項的值開(kāi)頭的URL 是允許robot訪問的。

User-agent: * 這裏的*代表所有的搜索引擎種類，*是一(yī)個通配符，*也可以替換成其他的蜘蛛名稱，例如：Googlebot、yisouspider，表示屏蔽特定搜索引擎的蜘蛛

Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下(xià)面的目錄

Disallow: /require/ 這裏定義是禁止爬尋require目錄下(xià)面的目錄

Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下(xià)面的目錄

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下(xià)的所有以\.htm\爲後綴的URL(包含子目錄)。

Disallow: /*?* 禁止訪問網站中(zhōng)所有包含問号(?) 的網址

Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬取ab文件夾下(xià)面的adc.html文件。

Allow: /cgi-bin/　這裏定義是允許爬尋cgi-bin目錄下(xià)面的目錄

Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄

Allow: .htm$ 僅允許訪問以\.htm\爲後綴的URL。

Allow: .gif$ 允許抓取網頁和gif格式圖片

Sitemap: 網站地圖，告訴爬蟲這個頁面是網站地圖

了解了robot.txt是什麽後相信大(dà)家也可以在日常工(gōng)作中(zhōng)很好的利用。不過還有一(yī)些注意事項是需要大(dà)家引起重視的，以免出現錯誤。

TAG：

<< robots.txt怎麽寫
如何管理企業網站 >>