如何對(duì)網(wǎng)站的robots.txt進(jìn)行設(shè)置來(lái)做seo優(yōu)化
什么是robots.txt?這是一個(gè)文本文件,是搜索引擎爬行網(wǎng)頁(yè)要查看的第一個(gè)文件,你可以告訴搜索引擎哪些文件可以被查看,哪些禁止。當(dāng)搜索機(jī)器人訪問(wèn)一個(gè)站點(diǎn)時(shí),它首先會(huì)檢查根目錄是否存在robots.txt,如果有就確定抓取范圍,沒(méi)有就按鏈接順序抓取。
robots.txt有什么用?為何需要用robots.txt這個(gè)文件來(lái)告訴搜索機(jī)器人不要爬行我們的部分網(wǎng)頁(yè),比如:后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫(kù)文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。說(shuō)到底了,這些頁(yè)面或文件被搜索引擎收錄了,用戶也看不了,多數(shù)需要口令才能進(jìn)入或是數(shù)據(jù)文件。既然這樣,又讓搜索機(jī)器人爬行的話,就浪費(fèi)了服務(wù)器資源,增加了服務(wù)器的壓力,因此我們可以用robots.txt告訴機(jī)器人集中注意力去收錄我們的文章頁(yè)面。增強(qiáng)用戶體驗(yàn)。
1、用robots屏蔽網(wǎng)站重復(fù)頁(yè)
很多網(wǎng)站一個(gè)內(nèi)容提供多種瀏覽版本,雖然很方便用戶卻對(duì)蜘蛛造成了困難,因?yàn)樗植磺迥莻€(gè)是主,那個(gè)是次,一旦讓它認(rèn)為你在惡意重復(fù),你就慘了
User-agent: *
Disallow: /sitemap/ 《禁止蜘蛛抓取 文本網(wǎng)頁(yè)》
2、用robots保護(hù)網(wǎng)站安全
很多人納悶了,robots怎么還和網(wǎng)站安全有關(guān)系了?其實(shí)關(guān)系還很大,不少低級(jí)黑客就是通過(guò)搜索默認(rèn)后臺(tái)登陸,以達(dá)到入侵網(wǎng)站的目標(biāo)
User-agent: *
Disallow: /admin/ 《禁止蜘蛛抓取admin目錄下所有文件》
3、防止盜鏈
一般盜鏈也就幾個(gè)人,可是一旦被搜索引擎“盜鏈”那家伙你100M寬帶也吃不消,如果你做的不是圖片網(wǎng)站,又不想被搜索引擎“盜鏈”你的網(wǎng)站圖片
User-agent: *
Disallow: .jpg$
4、提交網(wǎng)站地圖
現(xiàn)在做優(yōu)化的都知道做網(wǎng)站地圖了,可是卻沒(méi)幾個(gè)會(huì)提交的,絕大多數(shù)人是干脆在網(wǎng)頁(yè)上加個(gè)鏈接,其實(shí)robots是支持這個(gè)功能的
Sitemap: http:-www-***-com/sitemaps/sitemaps.xml
5、禁止某二級(jí)域名的抓取
一些網(wǎng)站會(huì)對(duì)VIP會(huì)員提供一些特殊服務(wù),卻又不想這個(gè)服務(wù)被搜索引擎檢索到
User-agent: *
Disallow: /
以上五招robots足以讓你對(duì)搜索引擎蜘蛛掌控能力提升不少,就像百度說(shuō)的:我們和搜索引擎應(yīng)該是朋友,增加一些溝通,才能消除一些隔膜。
robots.txt基本語(yǔ)法:
1、robots.txt的幾個(gè)關(guān)鍵語(yǔ)法:
a、User-agent: 應(yīng)用下文規(guī)則的漫游器,比如Googlebot,Baiduspider等。
b、Disallow: 要攔截的網(wǎng)址,不允許機(jī)器人訪問(wèn)。
c、Allow: 允許訪問(wèn)的網(wǎng)址
d、”*” : 通配符—匹配0或多個(gè)任意字符。
e、”$” : 匹配行結(jié)束符。
f、”#” : 注釋—說(shuō)明性的文字,不寫(xiě)也可。
g、Googlebot: 谷歌搜索機(jī)器人(也叫搜索蜘蛛)。
h、Baiduspider: 百度搜索機(jī)器人(也叫搜索蜘蛛)。
i、目錄、網(wǎng)址的寫(xiě)法:都以以正斜線 (/) 開(kāi)頭。
如
Disallow:/
Disallow:/images/
Disallow:/admin/
Disallow:/css/
2、列舉一些robots.txt 具體用法:
(1)允許所有的robot訪問(wèn)
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者建一個(gè)空文件”robots.txt”即可。
(2)僅禁止某個(gè)機(jī)器人訪問(wèn)您的網(wǎng)站,如Baiduspider。
User-agent: Baiduspider
Disallow: /
3、僅允許某個(gè)機(jī)器人訪問(wèn)您的網(wǎng)站,如Baiduspider。
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
4、禁止訪問(wèn)特定目錄
User-agent: *
Disallow: /admin/
Disallow: /css/
Disallow:
要攔截對(duì)所有包含問(wèn)號(hào) (?) 的網(wǎng)址的訪問(wèn)(具體地說(shuō),這種網(wǎng)址以您的域名開(kāi)頭、后接任意字符串,然后接問(wèn)號(hào),而后又接任意字符串),請(qǐng)使用以下內(nèi)容:
User-agent: Googlebot
Disallow: /*?
要指定與某個(gè)網(wǎng)址的結(jié)尾字符相匹配,請(qǐng)使用 $。例如,要攔截以 .xls 結(jié)尾的所有網(wǎng)址,請(qǐng)使用以下內(nèi)容: User-agent: Googlebot
Disallow: /*.xls$
您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 代表一個(gè)會(huì)話 ID,那么您可能希望排除包含 ? 的所有網(wǎng)址,以確保 Googlebot 不會(huì)抓取重復(fù)網(wǎng)頁(yè)。但是以 ? 結(jié)尾的網(wǎng)址可能是您希望包含在內(nèi)的網(wǎng)頁(yè)的版本。在此情況下,您可以對(duì)您的 robots.txt 文件進(jìn)行如下設(shè)置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: /*? 指令會(huì)阻止包含 ? 的所有網(wǎng)址(具體地說(shuō),它將攔截所有以您的域名開(kāi)頭、后接任意字符串,然后接問(wèn)號(hào),而后又接任意字符串的網(wǎng)址)。
Allow: /*?$ 指令將允許以 ? 結(jié)尾的任何網(wǎng)址(具體地說(shuō),它將允許所有以您的域名開(kāi)頭、后接任意字符串,然后接 ?,? 之后不接任何字符的網(wǎng)址)。
以上介紹多數(shù)都是Google的http:-www-google-com/support/we … cn&answer=40360,百度的大同小異具體可以看http:-www-baidu-com/search/robots.html
一般網(wǎng)站查看robots.txt文件的方法是主頁(yè)后面加robots.txt就可以,比如淘寶網(wǎng)的就是http:-www-taobao-com/robots.txt請(qǐng)注意,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請(qǐng)勿建立robots.txt文件。
網(wǎng)站Robots.txt協(xié)議,你懂多少?
網(wǎng)站Robots.txt文件,是網(wǎng)站與搜索引擎交流的通用協(xié)議,通過(guò)Robots協(xié)議的設(shè)置告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓?。阂环矫婵梢宰鼍W(wǎng)站安全的防護(hù),更重要的是用來(lái)做優(yōu)化,減少無(wú)效頁(yè)面的收錄,提升站點(diǎn)的排名效果。..
但是在實(shí)際的操作中,絕大多數(shù)的網(wǎng)站,在其撰寫(xiě)上都存在或多或少的欠缺,甚至由于技術(shù)性的錯(cuò)誤撰寫(xiě),還會(huì)導(dǎo)致網(wǎng)站降權(quán)、不收錄、被K等一系列問(wèn)題的出現(xiàn)。對(duì)于這一點(diǎn),A5營(yíng)銷(xiāo),包括我,在對(duì)客戶的SEO診斷過(guò)程中,會(huì)經(jīng)常遇到,可以算是很多站點(diǎn)的通病。今天寫(xiě)出這篇文章,就是來(lái)做一個(gè)分享:關(guān)于robots.txt協(xié)議,你寫(xiě)對(duì)了嗎?
一:設(shè)置成Allow全站點(diǎn)抓取
百度收錄的越多,網(wǎng)站的排名越高?這是絕大多數(shù)站長(zhǎng)的認(rèn)為,事實(shí)上也是如此。但是也并非絕對(duì)成立:低質(zhì)量的頁(yè)面收錄,會(huì)降低網(wǎng)站的排名效果,這一點(diǎn)你考慮到了嗎?
如果你的網(wǎng)站結(jié)構(gòu)不是非常的清晰,以及不存在多余的“功能”頁(yè)面,不建議對(duì)網(wǎng)站開(kāi)全站點(diǎn)的抓取,事實(shí)上,在A5的SEO診斷中,只遇到極少數(shù)的一部分網(wǎng)站,可以真正的做到全站點(diǎn)都允許抓取,而不做屏蔽。隨著功能的豐富,要做到允許全站點(diǎn)抓取,也不太可能。
二:什么樣的頁(yè)面不建議抓取
對(duì)于網(wǎng)站功能上有用的目錄,有用的頁(yè)面,在用戶體驗(yàn)上可以得到更好的提升。但是搜索引擎方面來(lái)講,就會(huì)造成:服務(wù)器負(fù)擔(dān),比如:大量的翻頁(yè)評(píng)論,對(duì)優(yōu)化上則沒(méi)有任何的價(jià)值。
除此外還包含如:網(wǎng)站做了偽靜態(tài)處理后,那么就要將動(dòng)態(tài)鏈接屏蔽掉,避免搜索引擎抓取。用戶登錄目錄、注冊(cè)目錄、無(wú)用的軟件下載目錄,如果是靜態(tài)類(lèi)型的站點(diǎn),還要屏蔽掉動(dòng)態(tài)類(lèi)型的鏈接Disallow: /*?* 為什么呢?我們舉個(gè)例子來(lái)看:
上面是某客戶網(wǎng)站發(fā)現(xiàn)的問(wèn)題,被百度收錄的原因是:有人惡意提交此類(lèi)型的鏈接,但是網(wǎng)站本身又沒(méi)有做好防護(hù)。
三:撰寫(xiě)上的細(xì)節(jié)注意事項(xiàng)
方法上來(lái)講,絕大多數(shù)的站長(zhǎng)都明白,這里就不做多說(shuō)了,不明白的站長(zhǎng),可以上百度百科看一下。今天這里說(shuō)一些不常見(jiàn)的,可能是不少站長(zhǎng)的疑問(wèn)。
1、舉例:Disallow; /a 與Disallow: /a/的區(qū)別,很多站長(zhǎng)都見(jiàn)過(guò)這樣的問(wèn)題,為什么有的協(xié)議后加斜杠,有的不加斜杠呢?筆者今天要說(shuō)的是:如果不加斜杠,屏蔽的是以a字母開(kāi)頭的所有目錄和頁(yè)面,而后者代表的是屏蔽當(dāng)前目錄的所有頁(yè)面和子目錄的抓取。
通常來(lái)講,我們往往選擇后者更多一些,因?yàn)槎x范圍越大,容易造成“誤殺”。
2、JS文件、CSS需要屏蔽嗎?不少網(wǎng)站都做了這個(gè)屏蔽,但是筆者要說(shuō)的是:google站長(zhǎng)工具明確的說(shuō)明:封禁css與js調(diào)用,可能會(huì)影響頁(yè)面質(zhì)量的判斷,從而影響排名。而對(duì)此,我們做了一些了解,百度方面同樣會(huì)有一定影響。
3、已經(jīng)刪除的目錄屏蔽,很多站長(zhǎng)往往刪除一些目錄后,怕出現(xiàn)404問(wèn)題,而進(jìn)行了屏蔽,禁止搜索引擎再抓取這樣的鏈接。事實(shí)上,這樣做真的好嗎?即使你屏蔽掉了,如果之前的目錄存在問(wèn)題,那么沒(méi)有被蜘蛛從庫(kù)中剔除,同樣會(huì)影響到網(wǎng)站。
建議最佳的方式是:將對(duì)應(yīng)的主要錯(cuò)誤頁(yè)面整理出來(lái),做死鏈接提交,以及自定義404頁(yè)面的處理,徹底的解決問(wèn)題,而不是逃避問(wèn)題。
說(shuō)明:本文由SEO369團(tuán)隊(duì)編輯整理,有侵犯權(quán)益的地方請(qǐng)聯(lián)系站長(zhǎng)刪除,如果需要了解更過(guò)SEO方面的知識(shí)請(qǐng)關(guān)注SEO369。
- 頻道總排行
- 影響關(guān)鍵詞排名的因素有哪些?
- 關(guān)鍵詞排名優(yōu)化:同一頁(yè)面不同快照原因分析
- 網(wǎng)站關(guān)鍵詞優(yōu)化的三個(gè)基礎(chǔ)問(wèn)題
- seo優(yōu)化的關(guān)鍵詞指的是什么呢
- 關(guān)鍵詞優(yōu)化的絕對(duì)路徑和相對(duì)路徑詳細(xì)分析
- 如何對(duì)網(wǎng)站的robots.txt進(jìn)行設(shè)置來(lái)做seo優(yōu)化
- 做關(guān)鍵詞排名優(yōu)化最后的預(yù)估時(shí)間的長(zhǎng)短分析
- 網(wǎng)站關(guān)鍵字優(yōu)化攻略
- 關(guān)鍵詞優(yōu)化中優(yōu)質(zhì)與非優(yōu)質(zhì)新聞源內(nèi)容的區(qū)別
- 網(wǎng)站優(yōu)化的首頁(yè)代碼優(yōu)化的技巧
- 您可能還想了解
- 說(shuō)說(shuō)湖南seo的內(nèi)容頁(yè)的內(nèi)鏈設(shè)置
- 湖北seo過(guò)程中如何認(rèn)識(shí)網(wǎng)站圖片收錄與展現(xiàn)的關(guān)系
- 四川網(wǎng)站優(yōu)化內(nèi)容建設(shè)策略有哪些?
- 貴州seo關(guān)鍵詞怎么布局才更合理?
- 云南seo優(yōu)化站內(nèi)的幾點(diǎn)技巧
- 湖北seo:也許自學(xué)seo并不是好的選擇
- 江蘇SEO優(yōu)化常見(jiàn)問(wèn)題解答
- 做貴州seo的時(shí)候如何防止網(wǎng)站被黑?
- 云南網(wǎng)站優(yōu)化的排名如何可以穩(wěn)定呢
- 陜西網(wǎng)站制作學(xué)習(xí)的基礎(chǔ)知識(shí)