誤區(qū)一:我網(wǎng)站上所有的文件都需要被蜘蛛抓取,那我就沒(méi)必要添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認(rèn)能夠訪(fǎng)問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。
每當(dāng)用戶(hù)試圖訪(fǎng)問(wèn)某個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤文件(無(wú)法找到文件)。每當(dāng)搜索蜘蛛來(lái)尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯(cuò)誤文件,所以你應(yīng)該在網(wǎng)站中添加一個(gè)robots.txt。
誤區(qū)二:在robots.txt文件中設(shè)置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率。
網(wǎng)站中的腳本程序、樣式表等文件即使被蜘蛛收錄,也不會(huì)增加網(wǎng)站的收錄率,還只會(huì)占用服務(wù)器存儲(chǔ)空間。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引腳本程序、樣式表等文件,具體哪些文件需要排除,在robots.txt使用技巧一文中有詳細(xì)介紹。
誤區(qū)三:搜索蜘蛛抓取網(wǎng)頁(yè)太浪費(fèi)服務(wù)器資源,在robots.txt文件中設(shè)置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁(yè)。
如果這樣的話(huà),會(huì)導(dǎo)致整個(gè)網(wǎng)站不能被搜索引擎收錄。