網(wǎng)站禁止和收錄機(jī)制

時(shí)間：2012-04-10 11:35 次來(lái)源：未知

有的時(shí)候，站長(zhǎng)并不希望某些頁(yè)面被搜索引擎抓取和收錄，如付費(fèi)內(nèi)容，還有測(cè)試階段的頁(yè)面，復(fù)制內(nèi)容頁(yè)面等。網(wǎng)站上不出現(xiàn)鏈接，或使用JavasScript、Flashl鏈接、使用nofollow等方法都不能保證頁(yè)面一定不被收錄。站長(zhǎng)自己雖然沒(méi)有鏈接到不想被收錄的頁(yè)面，其他網(wǎng)站可能由于某種原因出現(xiàn)導(dǎo)入鏈接，導(dǎo)致頁(yè)面被收錄。
要確保頁(yè)面不被收錄，需要使用robots文件或Meta Robots標(biāo)簽。

Robots文件

搜索引擎蜘蛛訪問(wèn)網(wǎng)站時(shí)，會(huì)先查看網(wǎng)站根目錄下有沒(méi)有一個(gè)命名為robotrs.txt文本文件，robots.txt用于指令搜索引擎禁止抓取網(wǎng)站某些內(nèi)容或指定允許抓取某些內(nèi)容。如百度的robots文件位于：
http://www.baidu.com/robots.txt
只有在需要禁止抓取某些內(nèi)容時(shí)，寫(xiě)robots.txt才有意義。Robots文件不存在或者是空文件都意味著允許搜索引擎抓取所有內(nèi)容。有的服務(wù)器設(shè)置有問(wèn)題，robots文件不存在時(shí)會(huì)返回200狀態(tài)碼及一些錯(cuò)誤信息，而不是404狀態(tài)碼，這有可能使搜索引擎錯(cuò)誤解讀robots文件信息，所以建議就算允許抓取所有內(nèi)容，也要建立一個(gè)robots.txt文件，放在根目錄下。
robots文件由記錄組成，記錄之間以空行分開(kāi)。記錄格式為：
<域>:<可選空格><值域><可選空格>
最簡(jiǎn)單的robots文件：
User-agent:*
Disallow:/
上面這個(gè)robots文件禁止所有搜索引擎抓取任何內(nèi)容。
User-agent:指定下面的規(guī)則適用于哪個(gè)蜘蛛。通配符*代表所有搜索引擎。只適用于百度的蜘蛛則用：
User-agent:Baiduspider
只適用于Google的蜘蛛則用：
User-agent:Googlebot
Disallow:告訴蜘蛛不要抓取某些文件或目錄。例如下面的代碼將阻止所有的蜘蛛抓取/cgi-bin/和/tmp/兩個(gè)目錄下的內(nèi)容及文件/aa/index.html:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /aa/index.html
Disallow:禁止的目錄或文件必須分開(kāi)寫(xiě)，每個(gè)一行，不能寫(xiě)成：
Disallow: /cgi-bin/ /tmp/ /aa/ index.html
下面的指令相當(dāng)于允許所有的搜索引擎抓取任何類容：
User-agent: *
Disallow:
下面的代碼禁止除百度外的所有搜索引擎抓取任何內(nèi)容：
User-agent: Baiduspiser
Disallow:

User-agent: *
Disallow: /
Allow: 告知蜘蛛應(yīng)該抓取某些文件。由于不指定就是允許抓取，Allow:單獨(dú)寫(xiě)沒(méi)有意義，Allow和Disallow配合使用，可以告訴蜘蛛某個(gè)文件下大部分不允許抓取，只允許抓取一部分。例如，下面代碼將使蜘蛛不抓取/ab/目錄下其他目錄和文件，但允許抓取其中/cd/目錄下的內(nèi)容：
Dser-agent:
Disallow: /ab/
Allow:/ab/cd/
$通配符：匹配URL結(jié)尾的字符。例如，下面一段代碼將禁止蜘蛛抓取以.htm為后綴的URL:
User-agenter: *
Allow: .htm$
下面的代碼將禁止百度抓取所有.JPG文件：
User-agent:Baiduspider
Disallow: .jpg$
*通配符：告訴蜘蛛匹配任何一段字符。例如，下面一段代碼將靜止蜘蛛抓取所有的htm文件：
User-agent: *
Disallow: /*.htm
Sitemaps 位置：告訴蜘蛛XML網(wǎng)站地圖在哪里，格式為：
Sitemap:<網(wǎng)站地圖位置>
主流搜索引擎都遵守robots文件指令，robots.txt禁止抓取的文件搜索引擎將不訪問(wèn)，不抓取。但要注意的是，被robots文件禁止抓取的URL還是可能出現(xiàn)在搜索結(jié)果中。只要有導(dǎo)入鏈接指向這個(gè)URL，搜索引擎就知道這個(gè)URL的存在，雖然不會(huì)抓取頁(yè)面的內(nèi)容，但是可能以下面幾種形式顯示在搜索引擎結(jié)果中：
（1）只顯示URL,但沒(méi)有標(biāo)題、描述。Google常這樣處理。
（2）顯示開(kāi)放目錄或雅虎等重要目錄收錄的標(biāo)題和描述。
（3）導(dǎo)入鏈接的錨文字顯示為標(biāo)題和描述。百度常這樣處理。
要想使URL完全不出現(xiàn)在搜索結(jié)果中，需要使用頁(yè)面上的meta robots標(biāo)簽。

2.meta robots 標(biāo)簽
Meta robots標(biāo)簽是頁(yè)面head部分meta標(biāo)簽的一種，用于指令搜索引擎禁止搜索本頁(yè)
最簡(jiǎn)單的meta robots標(biāo)簽格式為：
<meta name=”robots” content=”noindex,nofollow”>
上面標(biāo)簽的意義是禁止搜有搜索引擎索引本頁(yè)，靜止跟蹤本頁(yè)上面的鏈接。
Google、必應(yīng)、雅虎都支持的meta robots標(biāo)簽如下。

NOINDEX：告訴蜘蛛不要索引本頁(yè)
NOFOLLOW：告訴蜘蛛不要索引本頁(yè)上的鏈接
NOSNIPPET：告訴搜索引擎不要再搜索結(jié)果中顯示說(shuō)明文字。
NOarchive：告訴搜索引擎不要顯示快照。
NOODP：告訴搜索引擎不要使用開(kāi)放目錄中的標(biāo)題和說(shuō)明。

百度的官方說(shuō)法是目前只支持NOFOLLOW和NOARCHIVE。
Meta robots標(biāo)簽內(nèi)容可以寫(xiě)在一起，以逗號(hào)間隔，中間可以有空格，也可以沒(méi)有。多個(gè)meta robots標(biāo)簽內(nèi)容也可以寫(xiě)成不同標(biāo)簽。
<META NAME=”ROBOTS”CONTENT=”NOINDEX”>
<META NAME=”ROBOTS” CONTENT=” NOFOLLOW”>
與下面這個(gè)是一樣的：
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
Meta robots標(biāo)簽不區(qū)分大小寫(xiě)。
只有靜止索引時(shí)，使用 meta robots才有意義。一下這個(gè)標(biāo)簽：
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
是沒(méi)有意義的，等于沒(méi)寫(xiě)。普通需求被收錄、索引，鏈接需要被跟蹤的頁(yè)面，不用寫(xiě)meta robots標(biāo)簽。
這個(gè)標(biāo)簽有時(shí)會(huì)用到：
<meta name=”robots” content=”noindex”>
效果是禁止索引本頁(yè)面，但允許蜘蛛跟蹤上面的鏈接，也可以傳遞權(quán)重。
使用了noindex meta robots標(biāo)簽的頁(yè)面會(huì)被抓取，但不會(huì)被索引，頁(yè)面URL不會(huì)出現(xiàn)在搜索結(jié)果中，這一點(diǎn)與robots文件不同。

寶雞網(wǎng)站建設(shè)公司

0917 3876090

網(wǎng)站禁止和收錄機(jī)制