寶雞網(wǎng)站建設(shè)公司
搜索引擎建立自然搜索引擎庫(kù)
迄今為止,蜘蛛程序已經(jīng)爬過(guò)了網(wǎng)頁(yè),搜索引擎已經(jīng)分析了網(wǎng)頁(yè)的標(biāo)記和文本。下一步是創(chuàng)建搜索索引庫(kù),一個(gè)特別設(shè)計(jì)的
數(shù)據(jù)庫(kù),搜索引擎用它來(lái)為任何搜索請(qǐng)求快速查找匹配的網(wǎng)頁(yè)。
一個(gè)搜索引擎“想起”什么詞在哪個(gè)網(wǎng)頁(yè),是通過(guò)把詞和網(wǎng)頁(yè)存儲(chǔ)在搜索索引庫(kù)中。
在最簡(jiǎn)單情況下,一個(gè)搜索索引庫(kù)有一個(gè)含有每一個(gè)詞的記錄,跟著是含有這個(gè)詞的所有網(wǎng)頁(yè)的列表。因此,當(dāng)在Google搜
索“青光眼”的時(shí)候,Ooogle搜索引擎查看它的索引庫(kù),先找到“青光眼”的記錄,再找到網(wǎng)頁(yè)的列表。
當(dāng)一個(gè)搜索引擎正在創(chuàng)建搜索索引庫(kù),它檢查蜘蛛程序發(fā)現(xiàn)的每個(gè)網(wǎng)頁(yè)中那些獨(dú)特的詞,檢查每一個(gè)詞是否已在索引庫(kù)中存
有記錄。如果有記錄,就在記錄的末尾加上這個(gè)網(wǎng)頁(yè)的研址(URL)。如果沒(méi)有記錄,那么一個(gè)包含有那個(gè)網(wǎng)址的新記錄控創(chuàng)建。
現(xiàn)在,實(shí)際的地址會(huì)占據(jù)索引庫(kù)的大量空間,因此搜索引擎將每個(gè)網(wǎng)址轉(zhuǎn)換成一個(gè)獨(dú)特的數(shù)字,也存儲(chǔ)在索引庫(kù)中。
搜索引擎額外地儲(chǔ)存關(guān)于每個(gè)頁(yè)面的元數(shù)據(jù)(metadata).用以顯示搜索結(jié)果。因此,它存儲(chǔ)了網(wǎng)址,標(biāo)題,和任何必要的信
息摘要(能夠顯示出哪里找到的搜索項(xiàng))。這樣,當(dāng)這條記錄需要被顯示為搜索結(jié)果的時(shí)候,所有的信息已經(jīng)在其索引中了。