• 客服
    咨詢
  • 公告3
  • 關(guān)注

    關(guān)于時(shí)代 更多優(yōu)惠活動等您來拿!
    寶雞網(wǎng)絡(luò)公司微信 掃一掃關(guān)注——微信公眾號 時(shí)代手機(jī)瀏覽 掃一掃立即手機(jī)瀏覽
  • 關(guān)閉
  • 頂部
  • 網(wǎng)站禁止和收錄機(jī)制

    時(shí)間:2012-04-10 11:35 來源:未知
    有的時(shí)候,站長并不希望某些頁面被搜索引擎抓取和收錄,如付費(fèi)內(nèi)容,還有測試階段的頁面,復(fù)制內(nèi)容頁面等。網(wǎng)站上不出現(xiàn)鏈接,或使用JavasScript、Flashl鏈接、使用nofollow等方法都不能保證頁面一定不被收錄。站長自己雖然沒有鏈接到不想被收錄的頁面,其他網(wǎng)站可能由于某種原因出現(xiàn)導(dǎo)入鏈接,導(dǎo)致頁面被收錄。
       要確保頁面不被收錄,需要使用robots文件或Meta Robots標(biāo)簽。
    1. Robots文件
    搜索引擎蜘蛛訪問網(wǎng)站時(shí),會先查看網(wǎng)站根目錄下有沒有一個(gè)命名為robotrs.txt文本文件,robots.txt用于指令搜索引擎禁止抓取網(wǎng)站某些內(nèi)容或指定允許抓取某些內(nèi)容。如百度的robots文件位于:
    http://www.baidu.com/robots.txt
    只有在需要禁止抓取某些內(nèi)容時(shí),寫robots.txt才有意義。Robots文件不存在或者是空文件都意味著允許搜索引擎抓取所有內(nèi)容。有的服務(wù)器設(shè)置有問題,robots文件不存在時(shí)會返回200狀態(tài)碼及一些錯(cuò)誤信息,而不是404狀態(tài)碼,這有可能使搜索引擎錯(cuò)誤解讀robots文件信息,所以建議就算允許抓取所有內(nèi)容,也要建立一個(gè)robots.txt文件,放在根目錄下。
    robots文件由記錄組成,記錄之間以空行分開。記錄格式為:
    <域>:<可選空格><值域><可選空格>
    最簡單的robots文件:
    User-agent:*
    Disallow:/
    上面這個(gè)robots文件禁止所有搜索引擎抓取任何內(nèi)容。
    User-agent:指定下面的規(guī)則適用于哪個(gè)蜘蛛。通配符*代表所有搜索引擎。只適用于百度的蜘蛛則用:
    User-agent:Baiduspider
    只適用于Google的蜘蛛則用:
    User-agent:Googlebot
    Disallow:告訴蜘蛛不要抓取某些文件或目錄。例如下面的代碼將阻止所有的蜘蛛抓取/cgi-bin/和/tmp/兩個(gè)目錄下的內(nèi)容及文件/aa/index.html:
     User-agent: *
     Disallow: /cgi-bin/
     Disallow: /tmp/
     Disallow: /aa/index.html
    Disallow:禁止的目錄或文件必須分開寫,每個(gè)一行,不能寫成:
    Disallow: /cgi-bin/ /tmp/ /aa/ index.html
    下面的指令相當(dāng)于允許所有的搜索引擎抓取任何類容:
     User-agent: *
     Disallow:
    下面的代碼禁止除百度外的所有搜索引擎抓取任何內(nèi)容:
     User-agent: Baiduspiser
     Disallow:
     
     User-agent: *
    Disallow: /
    Allow: 告知蜘蛛應(yīng)該抓取某些文件。由于不指定就是允許抓取,Allow:單獨(dú)寫沒有意義,Allow和Disallow配合使用,可以告訴蜘蛛某個(gè)文件下大部分不允許抓取,只允許抓取一部分。例如,下面代碼將使蜘蛛不抓取/ab/目錄下其他目錄和文件,但允許抓取其中/cd/目錄下的內(nèi)容:
    Dser-agent:
    Disallow: /ab/
    Allow:/ab/cd/
    $通配符:匹配URL結(jié)尾的字符。例如,下面一段代碼將禁止蜘蛛抓取以.htm為后綴的URL:
    User-agenter: *
    Allow: .htm$
    下面的代碼將禁止百度抓取所有.JPG文件:
     User-agent:Baiduspider
    Disallow: .jpg$
    *通配符:告訴蜘蛛匹配任何一段字符。例如,下面一段代碼將靜止蜘蛛抓取所有的htm文件:
    User-agent: *
    Disallow: /*.htm
    Sitemaps 位置:告訴蜘蛛XML網(wǎng)站地圖在哪里,格式為:
    Sitemap:<網(wǎng)站地圖位置>
    主流搜索引擎都遵守robots文件指令,robots.txt禁止抓取的文件搜索引擎將不訪問,不抓取。但要注意的是,被robots文件禁止抓取的URL還是可能出現(xiàn)在搜索結(jié)果中。只要有導(dǎo)入鏈接指向這個(gè)URL,搜索引擎就知道這個(gè)URL的存在,雖然不會抓取頁面的內(nèi)容,但是可能以下面幾種形式顯示在搜索引擎結(jié)果中:
    (1)只顯示URL,但沒有標(biāo)題、描述。Google常這樣處理。
     (2)顯示開放目錄或雅虎等重要目錄收錄的標(biāo)題和描述。
    (3)導(dǎo)入鏈接的錨文字顯示為標(biāo)題和描述。百度常這樣處理。
    要想使URL完全不出現(xiàn)在搜索結(jié)果中,需要使用頁面上的meta robots標(biāo)簽。
     
    2.meta robots 標(biāo)簽
    Meta robots標(biāo)簽是頁面head部分meta標(biāo)簽的一種,用于指令搜索引擎禁止搜索本頁
    最簡單的meta robots標(biāo)簽格式為:
    <meta name=”robots” content=”noindex,nofollow”>
    上面標(biāo)簽的意義是禁止搜有搜索引擎索引本頁,靜止跟蹤本頁上面的鏈接。
    Google、必應(yīng)、雅虎都支持的meta robots標(biāo)簽如下。
    • NOINDEX:告訴蜘蛛不要索引本頁
    • NOFOLLOW:告訴蜘蛛不要索引本頁上的鏈接
    • NOSNIPPET:告訴搜索引擎不要再搜索結(jié)果中顯示說明文字。
    • NOarchive:告訴搜索引擎不要顯示快照。
    • NOODP:告訴搜索引擎不要使用開放目錄中的標(biāo)題和說明。
    百度的官方說法是目前只支持NOFOLLOW和NOARCHIVE。
    Meta robots標(biāo)簽內(nèi)容可以寫在一起,以逗號間隔,中間可以有空格,也可以沒有。多個(gè)meta  robots標(biāo)簽內(nèi)容也可以寫成不同標(biāo)簽。
    <META  NAME=”ROBOTS”CONTENT=”NOINDEX”>
    <META  NAME=”ROBOTS” CONTENT=” NOFOLLOW”>
    與下面這個(gè)是一樣的:
    <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
    Meta robots標(biāo)簽不區(qū)分大小寫。
    只有靜止索引時(shí),使用 meta robots才有意義。一下這個(gè)標(biāo)簽:
    <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
    是沒有意義的,等于沒寫。普通需求被收錄、索引,鏈接需要被跟蹤的頁面,不用寫meta robots標(biāo)簽。
    這個(gè)標(biāo)簽有時(shí)會用到:
    <meta name=”robots” content=”noindex”>
    效果是禁止索引本頁面,但允許蜘蛛跟蹤上面的鏈接,也可以傳遞權(quán)重。
    使用了noindex meta robots標(biāo)簽的頁面會被抓取,但不會被索引,頁面URL不會出現(xiàn)在搜索結(jié)果中,這一點(diǎn)與robots文件不同。