robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當(dāng)一個搜索蜘蛛訪問一個站點(diǎn)時,它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
robots.txt必須放置在一個站點(diǎn)的根目錄下,而且文件名必須全部小寫。
語法:最簡單的 robots.txt 文件使用兩條規(guī)則:
• User-Agent: 適用下列規(guī)則的漫游器
• Disallow: 要攔截的網(wǎng)頁