|
|
您所在的位置:>吐血奉獻:怎嘛寫好robots讓權重“飛”起來(原創(chuàng))! |
|
|
吐血奉獻:怎嘛寫好robots讓權重“飛”起來(原創(chuàng))! |
發(fā)布人:北京網(wǎng)站建設 發(fā)布時間:2003/9/20 點擊:900157次
|
|
站長地工作是設計精美地網(wǎng)站,為大眾展現(xiàn)網(wǎng)站豐富多彩地內(nèi)容。當然,我們也希望精心設計地網(wǎng)站獲得理想地排名,這就要求我們?nèi)パ芯克阉饕媾琶?guī)律,最大程度地獲得機會展現(xiàn)給客戶。然而,搜索引擎種類很多,有時候,我們對某壹種搜索引擎地排名很好,卻在另外地搜索引擎上面獲得不到壹樣地排名,原因是各個搜索引擎規(guī)則不壹樣。為此,有人復制出相同地內(nèi)容以應付不同搜索引擎地排名規(guī)則。然而,壹旦搜索引擎發(fā)現(xiàn)站內(nèi)有大量克隆地頁面,就會給以懲罰,不收錄這些重復地頁面。另壹方面,我們網(wǎng)站地內(nèi)容屬于個人私密文件,不想暴露在搜索引擎中。這時,robot.txt就是為啦解決這兩個問題。
壹、搜索引擎和其對應地User-Agent
那么,目前有哪些搜索引擎和其對應地User-Agent呢?下面,我列出啦壹些,以供參考。
搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
Looksmart Web Pages Slurp
貳、robots基本概念
Robots.txt文件是網(wǎng)站地壹個文件,它是給搜索引擎蜘蛛看地。搜索引擎蜘蛛爬行道我們地網(wǎng)站首先就是抓取這個文件,根據(jù)里面地內(nèi)容來決定對網(wǎng)站文件訪問地范圍。它能夠保護我們地壹些文件不暴露在搜索引擎之下,從而有效地控制蜘蛛地爬取路徑,為我們站長做好北京網(wǎng)站建設創(chuàng)造必要地條件。尤其是我們地網(wǎng)站剛剛創(chuàng)建,有些內(nèi)容還不完善,暫時還不想被搜索引擎收錄時。
robots.txt也可用在某壹目錄中。對這壹目錄下地文件進行搜索范圍設定。
幾點注意:
網(wǎng)站必須要有壹個robot.txt文件。
文件名是小寫字母。
當需要完全屏蔽文件時,需要配合meta地robots屬性。
叁、robots.txt地基本語法
內(nèi)容項地基本格式:鍵: 值對。
壹) User-Agent鍵
后面地內(nèi)容對應地是各個具體地搜索引擎爬行器地名稱。如百度是Baiduspider,谷歌是Googlebot。
壹般我們這樣寫:
User-Agent: *
表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某壹個搜索引擎蜘蛛來爬行,在后面列出名字即可。如果是多個,則重復寫。來源于: 武漢民生耳鼻喉醫(yī)院 http://www.零貳柒msebh.com/
注意:User-Agent:后面要有壹個空格。
在robots.txt中,鍵后面加:號,后面必有壹個空格,和值相區(qū)分開。
貳)Disallow鍵
該鍵用來說明不允許搜索引擎蜘蛛抓取地URL路徑。
例如:Disallow: /index.php 禁止網(wǎng)站index.php文件
Allow鍵
該鍵說明允許搜索引擎蜘蛛爬行地URL路徑
例如:Allow: /index.php 允許網(wǎng)站地index.php
通配符*
代表任意多個字符
例如:Disallow: /*.jpg 網(wǎng)站所有地jpg文件被禁止啦。
結束符$
表示以前面字符結束地url。
例如:Disallow: /?$ 網(wǎng)站所有以?結尾地文件被禁止。
肆、robots.txt實例分析
例壹. 禁止所有搜索引擎訪問網(wǎng)站地任何部分
User-agent: *
Disallow: /
例貳. 允許所有地搜索引擎訪問網(wǎng)站地任何部分
User-agent: *
Disallow:
例叁. 僅禁止Baiduspider訪問您地網(wǎng)站
User-agent: Baiduspider
Disallow: /
例肆. 僅允許Baiduspider訪問您地網(wǎng)站
User-agent: Baiduspider
Disallow:
例伍. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項:壹)叁個目錄要分別寫。貳)請注意最后要帶斜杠。叁)帶斜杠與不帶斜杠地區(qū)別。
例陸. 允許訪問特定目錄中地部分url
我希望a目錄下只有b.htm允許訪問,怎嘛寫?
User-agent: *
Allow: /a/b.htm
Disallow: /a/
注:允許收錄優(yōu)先級要高于禁止收錄。
從例柒開始說明通配符地使用。通配符包括($ 結束符;
*任意符)
例柒. 禁止訪問網(wǎng)站中所有地動態(tài)頁面
User-agent: *
Disallow: /*?*
例捌. 禁止搜索引擎抓取網(wǎng)站上所有圖片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
其他很多情況呢,需要具體情況具體分析。只要你啦解啦這些語法規(guī)則以及通配符地使用,相信很多情況是可以解決地。
伍、meta robots標簽
meta是網(wǎng)頁html文件地head標簽里面地標簽內(nèi)容。它規(guī)定啦此html文件對與搜索引擎地抓取規(guī)則。與robot.txt 不同,它只針對寫在此html地文件。
寫法:
meta name=robots content= /。
里面地內(nèi)容列出如下
noindex - 阻止頁面被列入索引。
nofollow - 阻止對于頁面中任何超級鏈接進行索引。
noarchive - 不保存該頁面地網(wǎng)頁快照。
nosnippet - 不在搜索結果中顯示該頁面地摘要信息,同時不保存該頁面地網(wǎng)頁快照。
noodp - 在搜索結果中不使用Open Directory Project中地描述信息作為其摘要信息。
陸、robots地測試
在谷歌站長工具中,添加網(wǎng)站后使用左側地抓取工具地權限,就可以對網(wǎng)站地robots進行測試啦,詳細見圖。
robots.txt和mtea robots地內(nèi)容就介紹到這里,相信大家對robot已經(jīng)有啦比較詳細地啦解。使用好robots對于我們網(wǎng)站地北京網(wǎng)站建設有著重要作用,做地好,可以有效地屏蔽那些我們不想讓搜索引擎抓取地頁面,也就是對用戶體驗不高地頁面,從而將有利于重要詞語排名地內(nèi)頁充分展示個客戶,獲得搜索引擎對站內(nèi)頁面地權重,從而有利于我們將重要詞語排名做地更好。北京歡迎你科技有限公司原創(chuàng)文章,關鍵詞:北京網(wǎng)站建設 北京建網(wǎng)站 北京網(wǎng)站制作 轉載請注明出處:2121336.cn
謝謝! |
|
返回 |
|
|
|
|
|
|