搜索引擎工作原理什么?網(wǎng)絡(luò)爬蟲,“蜘蛛”又是什么?

2020/11/19 11:20:29 閱讀：3071 發(fā)布者：3071

當(dāng)我們在輸入框中輸入關(guān)鍵詞，點(diǎn)擊搜索或查詢時(shí)，然后得到結(jié)果。深究其背后的故事，搜索引擎做了很多事情。

首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息；同時(shí)對(duì)信息進(jìn)行提取和組織建立索引庫；再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字，在索引庫中快速檢出文檔，進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià)，對(duì)將要輸出的結(jié)果進(jìn)行排序，并將查詢結(jié)果返回給用戶。

在搜索引擎網(wǎng)站，比如百度，在其后臺(tái)有一個(gè)非常龐大的數(shù)據(jù)庫，里面存儲(chǔ)了海量的關(guān)鍵詞，而每個(gè)關(guān)鍵詞又對(duì)應(yīng)著很多網(wǎng)址，這些網(wǎng)址是百度程序從茫茫的互聯(lián)網(wǎng)上一點(diǎn)一點(diǎn)下載收集而來的，這些程序稱之為“搜索引擎蜘蛛”或“網(wǎng)絡(luò)爬蟲”。

這些勤勞的“蜘蛛”每天在互聯(lián)網(wǎng)上爬行，從一個(gè)鏈接到另一個(gè)鏈接，下載其中的內(nèi)容，進(jìn)行分析提煉，找到其中的關(guān)鍵詞，如果“蜘蛛”認(rèn)為關(guān)鍵詞在數(shù)據(jù)庫中沒有而對(duì)用戶是有用的便存入數(shù)據(jù)庫。反之，如果“蜘蛛”認(rèn)為是垃圾信息或重復(fù)信息，就舍棄不要，繼續(xù)爬行，尋找最新的、有用的信息保存起來提供用戶搜索。當(dāng)用戶搜索時(shí)，就能檢索出與關(guān)鍵字相關(guān)的網(wǎng)址顯示給訪客。

一個(gè)關(guān)鍵詞對(duì)用多個(gè)網(wǎng)址，因此就出現(xiàn)了排序的問題，相應(yīng)的當(dāng)與關(guān)鍵詞最吻合的網(wǎng)址就會(huì)排在前面了。在“蜘蛛”抓取網(wǎng)頁內(nèi)容，提煉關(guān)鍵詞的這個(gè)過程中，就存在一個(gè)問題：“蜘蛛”能否看懂。如果網(wǎng)站內(nèi)容是flash和js，那么它是看不懂的，會(huì)犯迷糊，即使關(guān)鍵字再貼切也沒用。相應(yīng)的，如果網(wǎng)站內(nèi)容是它的語言，那么它便能看懂，它的語言即SEO。

搜索引擎的基本工作原理包括如下三個(gè)過程：

抓取網(wǎng)頁。每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲（spider）。爬蟲Spider順著網(wǎng)頁中的超鏈接，從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站，通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍，理論上，從一定范圍的網(wǎng)頁出發(fā)，就能搜集到絕大多數(shù)的網(wǎng)頁。

處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后，還要做大量的預(yù)處理工作，才能提供檢索服務(wù)。其中，最重要的就是提取關(guān)鍵詞，建立索引庫和索引。其他還包括去除重復(fù)網(wǎng)頁、分詞（中文）、判斷網(wǎng)頁類型、分析超鏈接、計(jì)算網(wǎng)頁的重要度/豐富度等。

提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索，搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁；為了用戶便于判斷，除了網(wǎng)頁標(biāo)題和URL外，還會(huì)提供一段來自網(wǎng)頁的摘要以及其他信息。

上一篇 vue等單頁面應(yīng)用及其優(yōu)缺點(diǎn)

下一篇頁面如何做SEO優(yōu)化?從 web方面SEO優(yōu)化

【微信掃一掃】

久久久久久久视色_18人成视频网站网址_久久九九国外免费视频_a级女少妇bbw

搜索引擎工作原理什么?網(wǎng)絡(luò)爬蟲,“蜘蛛”又是什么?

搜索引擎的基本工作原理包括如下三個(gè)過程：

文章分類

相關(guān)新聞

熱門標(biāo)簽