加入收藏
 地圖
 用戶登陸
 幫助中心
電子商務 SEO動態 SEO技術 SEO軟件 SEO推薦 網站留言 SEO用戶 SEO專欄 電子商務   SEO培訓
今天是:2019年8月31日 星期六   您現在位于: 首頁 →  SEO技術 → 電子商務推廣(電子商務推廣)

中文搜索引擎技術揭密:網絡蜘蛛

2019/8/31  電子商務網  瀏覽選項:    本文已被瀏覽 1426 次
隨著搜索經濟的崛起,人們開始越加關注全球各大搜索引擎的性能、技術和日流量。作為企業,會根據搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網民,會根據搜索引擎的性能和技術來選擇自己喜歡的引擎查找資料;作為學者,會把有代表性的搜索引擎作為研究對象……
  而作為一個網站的經營者,其更關心的或許是如何通過網絡載體讓更多的網民知道自己的網站,進而獲得更高的流量和知名度。這其中,搜索引擎已經成了一個重要的且是**的宣傳途徑。一方面,搜索引擎會主動出擊,尋找網絡上的各種網頁數據,并在后臺按相關條件進行索引;另一方面,各大網站為了能讓自己的內容更多的通過搜索引擎向網民展示,都開始對網站結構進行重大調整,其中包括扁平化結構設計、動態(網頁)轉靜態(網頁)、Sitemap等。
  這些看來不經意的舉動都讓我們切身感受到搜索引擎對我們網絡使用方式的改變起到了重要作用。并且,正因為搜索引擎的興起以及社會各界對其重視程度日漸高漲,還由此創造了一個全新的職位——SEO。實際上,搜索引擎經濟的崛起,又一次向人們證明了網絡所蘊藏的巨大商機。網絡離開了搜索將只剩下空洞雜亂的數據,以及大量等待去費力挖掘的金礦。
  搜索引擎一直專注于提升用戶的體驗度,其用戶體驗度則反映在三個方面:準、全、快。用專業術語講是:查準率、查全率和搜索速度(即搜索耗時)。其中最易達到的是搜索速度,因為對于搜索耗時在1秒以下的系統來說,訪問者很難辨別其快慢了,更何況還有網絡速度的影響。因此,對搜索引擎的評價就集中在了前兩者:準、全。中文搜索引擎的“準”,需要保證搜索的前幾十條結果都和搜索詞十分相關,這需由“分詞技術”和“排序技術”來決定;中文搜索引擎的“全”則需保證不遺漏某些重要的結果,而且能找到最新的網頁,這需要搜索引擎有一個強大的網頁收集器,一般稱為“網絡蜘蛛”,也有叫“網頁機器人”。
  研究搜索引擎技術的文章不少,但大部分討論的是如何評價網頁的重要性,對于網絡蜘蛛研究的文章不多。網絡蜘蛛技術并不是一項十分高深的技術,但要做一個強大的網絡蜘蛛,卻非易事。在目前磁盤容量已經不是瓶頸的時候,搜索引擎一直在擴大自己的網頁數量。最大的搜索引擎Googlehttp://www.google.com)從2002年的10億網頁增加到現在近40億網頁;最近雅虎搜索引擎http://search.yahoo.com/)號稱收錄了45億個網頁;國內的中文搜索引擎百度http://www.baidu.com)的中文頁面從兩年前的七千萬頁增加到了現在的兩億多。據估計,整個互聯網的網頁數達到100多億,而且每年還在快速增長。因此一個優秀的搜索引擎,需要不斷的優化網絡蜘蛛的算法,提升其性能。
  或許有些人有疑問,為何搜索引擎需要用網絡蜘蛛抓取網站所有的網頁,為什么不在搜索者輸入關鍵詞后只把那些需要的結果抓取過來?這實際上是效率問題,搜索引擎不可能在搜索時實時去檢查每個網頁,而是需要把網頁先抓取下來,按照關鍵詞建立好索引,每次搜索的結果都會直接從搜索引擎建立好索引的數據庫中查找,然后把結果返回給訪問者。本文主要介紹網絡蜘蛛的相關技術。 
  網絡蜘蛛基本原理
  網絡蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
  對于搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能的,從目前公布的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸,無法遍歷所有的網頁,有許多網頁無法從其它網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題,如果按照每個頁面的平均大小為20K計算(包含圖片),100億網頁的容量是100×2000G字節,即使能夠存儲,下載也存在問題(按照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才能把所有網頁下載完畢)。同時,由于數據量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。
  在抓取網頁的時候,網絡蜘蛛一般有兩種策略:廣度優先和深度優先。廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網絡蜘蛛并行處理,提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。
  由于不可能抓取所有的網頁,有些網絡蜘蛛對一些不太重要的網站,設置了訪問的層數。例如,以A為起始網頁,屬于0層,B、C、D、E、F屬于第1層,G、H屬于第2層,I屬于第3層。如果網絡蜘蛛設置的訪問層數為2的話,網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對于網站設計者來說,扁平化的網站結構設計有助于搜索引擎抓取其更多的網頁。
  網絡蜘蛛在訪問網站網頁的時候,經常會遇到加密數據和網頁權限的問題,有些網頁是需要會員權限才能訪問。當然,網站的所有者可以通過協議讓網絡蜘蛛不去抓取(下小節會介紹),但對于一些出售報告的網站,他們希望搜索引擎能搜索到他們的報告,但又不能完全**的讓搜索者查看,這樣就需要給網絡蜘蛛提供相應的用戶名和密碼。網絡蜘蛛可以通過所給的權限對這些網頁進行網頁抓取,從而提供搜索。而當搜索者點擊查看該網頁的時候,同樣需要搜索者提供相應的權限驗證。  網站與網絡蜘蛛
  網絡蜘蛛需要抓取網頁,不同于一般的訪問,如果控制不好,則會引起網站服務器負擔過重。今年4月,淘寶網http://www.taobao.com)就因為雅虎搜索引擎的網絡蜘蛛抓取其數據引起淘寶網服務器的不穩定。網站是否就無法和網絡蜘蛛交流呢?其實不然,有多種方法可以讓網站和網絡蜘蛛進行交流。一方面讓網站管理員了解網絡蜘蛛都來自哪兒,做了些什么,另一方面也告訴網絡蜘蛛哪些網頁不應該抓取,哪些網頁應該更新。
  每個網絡蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發送一個請求,這個請求中就有一個字段為User-agent,用于標識此網絡蜘蛛的身份。例如Google網絡蜘蛛的標識為GoogleBot,Baidu網絡蜘蛛的標識為BaiDuSpider,Yahoo網絡蜘蛛的標識為Inktomi Slurp。如果在網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的網絡蜘蛛過來過,什么時候過來的,以及讀了多少數據等等。如果網站管理員發現某個蜘蛛有問題,就通過其標識來和其所有者聯系。
  網絡蜘蛛進入一個網站,一般會訪問一個特殊的文本文件Robots.txt,這個文件一般放在網站服務器的根目錄下,如http://www.blogchina.com/robots.txt。網站管理員可以通過robots.txt來定義哪些目錄網絡蜘蛛不能訪問,或者哪些目錄對于某些特定的網絡蜘蛛不能訪問。例如有些網站的可執行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那么網站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:
  User-agent: *
  Disallow:
  當然,Robots.txt只是一個協議,如果網絡蜘蛛的設計者不遵循這個協議,網站管理員也無法阻止網絡蜘蛛對于某些頁面的訪問,但一般的網絡蜘蛛都會遵循這些協議,而且網站管理員還可以通過其它方式來拒絕網絡蜘蛛對某些網頁的抓取。
  網絡蜘蛛在下載網頁的時候,會去識別網頁的HTML代碼,在其代碼的部分,會有META標識。通過這些標識,可以告訴網絡蜘蛛本網頁是否需要被抓取,還可以告訴網絡蜘蛛本網頁中的鏈接是否需要被繼續跟蹤。例如:表示本網頁不需要被抓取,但是網頁內的鏈接需要被跟蹤。
  現在一般的網站都希望搜索引擎能更全面的抓取自己網站的網頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網站。為了讓本網站的網頁更全面被抓取到,網站管理員可以建立一個網站地圖,即Site Map。許多網絡蜘蛛會把sitemap.htm文件作為一個網站網頁爬取的入口,網站管理員可以把網站內部所有網頁的鏈接放在這個文件里面,那么網絡蜘蛛可以很方便的把整個網站抓取下來,避免遺漏某些網頁,也會減小對網站服務器的負擔。 
  內容提取
  搜索引擎建立網頁索引,處理的對象是文本文件。對于網絡蜘蛛來說,抓取下來網頁包括各種格式,包括html、圖片、doc、pdf、多媒體、動態網頁及其它格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息,一方面對搜索引擎的搜索準確性有重要作用,另一方面對于網絡蜘蛛正確跟蹤其它鏈接有一定影響。
  對于doc、pdf等文檔,這種由專業廠商提供的軟件生成的文檔,廠商都會提供相應的文本提取接口。網絡蜘蛛只需要調用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關的信息。
  HTML等文檔不一樣,HTML有一套自己的語法,通過不同的命令標識符來表示不同的字體、顏色、位置等版式,如:、、等,提取文本信息時需要把這些標識符都過濾掉。過濾標識符并非難事,因為這些標識符都有一定的規則,只要按照不同的標識符取得相應的信息即可。但在識別這些信息的時候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標題、是否是加粗顯示、是否是頁面的關鍵詞等,這些信息有助于計算單詞在網頁中的重要程度。同時,對于HTML網頁來說,除了標題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點關系也沒有,在提取網頁內容的時候,也需要過濾這些無用的鏈接。例如某個網站有“產品介紹”頻道,因為導航條在網站內每個網頁都有,若不過濾導航條鏈接,在搜索“產品介紹”的時候,則網站內每個網頁都會搜索到,無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統計大量的網頁結構規律,抽取一些共性,統一過濾;對于一些重要而結果特殊的網站,還需要個別處理。這就需要網絡蜘蛛的設計有一定的擴展性。
  對于多媒體、圖片等文件,一般是通過鏈接的錨文本(即,鏈接文本)和相關的文件注釋來判斷這些文件的內容。例如有一個鏈接文字為“張曼玉照片”,其鏈接指向一張bmp格式的圖片,那么網絡蜘蛛就知道這張圖片的內容是“張曼玉的照片”。這樣,在搜索“張曼玉”和“照片”的時候都能讓搜索引擎找到這張圖片。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的了解文件的內容。
  動態網頁一直是網絡蜘蛛面臨的難題。所謂動態網頁,是相對于靜態網頁而言,是由程序自動生成的頁面,這樣的好處是可以快速統一更改網頁風格,也可以減少網頁所占服務器的空間,但同樣給網絡蜘蛛的抓取帶來一些麻煩。由于開發語言不斷的增多,動態網頁的類型也越來越多,如:asp、jsp、php等。這些類型的網頁對于網絡蜘蛛來說,可能還稍微容易一些。網絡蜘蛛比較難于處理的是一些腳本語言(如VBScript和javascript)生成的網頁,如果要完善的處理好這些網頁,網絡蜘蛛需要有自己的腳本解釋程序。對于許多數據是放在數據庫的網站,需要通過本網站的數據庫搜索才能獲得信息,這些給網絡蜘蛛的抓取帶來很大的困難。對于這類網站,如果網站設計者希望這些數據能被搜索引擎搜索,則需要提供一種可以遍歷整個數據庫內容的方法。
  對于網頁內容的提取,一直是網絡蜘蛛中重要的技術。整個系統一般采用插件的形式,通過一個插件管理服務程序,遇到不同格式的網頁采用不同的插件處理。這種方式的好處在于擴充性好,以后每發現一種新的類型,就可以把其處理方式做成一個插件補充到插件管理服務程序之中。
  更新周期
  由于網站的內容經常在變化,因此網絡蜘蛛也需不斷的更新其抓取網頁的內容,這就需要網絡蜘蛛按照一定的周期去掃描網站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經過期的死鏈接。
  搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長,則總會有一部分新生成的網頁搜索不到;周期過短,技術實現會有一定難度,而且會對帶寬、服務器的資源都有浪費。搜索引擎的網絡蜘蛛并不是所有的網站都采用同一個周期進行更新,對于一些重要的更新量大的網站,更新的周期短,如有些新聞網站,幾個小時就更新一次;相反對于一些不重要的網站,更新的周期就長,可能一兩個月才更新一次。
  一般來說,網絡蜘蛛在更新網站內容的時候,不用把網站網頁重新抓取一遍,對于大部分的網頁,只需要判斷網頁的屬性(主要是日期),把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。
  結論
  本文主要討論了網絡蜘蛛相關的技術要點,如果要設計好的網絡蜘蛛,需要了解更多的技術細節。
  網絡蜘蛛在搜索引擎中占有重要位置,對搜索引擎的查全、查準都有影響,決定了搜索引擎數據容量的大小,而且網絡蜘蛛的好壞直接影響搜索結果頁中的死鏈接(即鏈接所指向的網頁已經不存在)的個數。目前如何發現更多的網頁、如何正確提取網頁內容、如果下載動態網頁、如何提供抓取速度、如何識別網站內內容相同的網頁等都是網絡蜘蛛需要進一步改進的問題。
 發布人:杰米  [ → 我要發表文章 ] 上篇文章:擁有營銷網站十大好處
下篇文章:網頁排名優化中常見的作弊行為
→ 主題所屬分類:  電子商務推廣 → 電子商務推廣 → 『關閉窗口』
用什么樣的搜索引擎搜索
電子商務是如何產生和發展的
對IPTV中媒體分發網絡發展的思考
巧用QQ面板獲取最新QQ空間代碼
電子商務的應用特性
金山詞霸2005-能聽 金山詞霸2..
免費讓QQ網絡硬盤增加3倍
WinXP原來還可以這樣重啟
WinXP中實現磁盤自動整理
個人站長網站的發展,將是漫長的道路!
Foxmail找回已刪除的電子郵箱
IPTV將促進寬帶接入發展
電子商務有哪些特性
Photoshop為婚紗照片做潤色..
Balkl盲nning br枚ll..
為Windows XP標題欄“瘦瘦..
通用電氣(中國)電子商務策略
網上開店如何進到最便宜的貨
你能下載Flash里的畫中畫嗎
Google個人用戶和個性化搜索 ..
微軟正式把3721列為流氓軟件
保護郵件慎用Foxmail卸載程序
超級求愛計劃--視頻軟件篇
PDF文檔也能DIY:pdfFac..
盛大領跑網絡游戲漲價 九城久游等即..
在QQ群里瘋狂(上) 大學校園生活..
Replica 5980/1A-0..
微軟電子商務的三個成功案例
Mont Blanc Kugels..
QQ直播使用常見問題解決辦法
意想不到的收獲 QQ截圖鍵的妙用
計算機病毒防治策略的11條
Replika Porsche D..
2012 Absorbing aB..
想變就變:輕輕松松切換IP地址
優秀軟件風云排行榜
將你的Gmail改造為本地驅動器 ..
Moncler Hombres O..
矢量圖形軟件大比拼----Illu..
讓你暢通無阻進入系統文件夾
電子商務主要的安全要素
Windows無法刪除文件解決法
輕松擁有自己的站內搜索引擎
年輕人網上開店 坐在家里忙數錢!
Replica relojes P..
 熱門文章
 
 保存網頁圖片的八種方法 (53672)
 我的QQ 我的信息中心 (47816)
 2006年值得關注的十個web2.0網站 (39854)
 用OE郵件發短信不再是夢想! (39328)
 傳統商務與電子商務的區別 (11472)
 讓Windows序列號原形畢露 (11049)
 近一年來RSS和Blog已逐漸成為互聯網發展的新潮流 (9533)
 如何讓搜索引擎收錄新網站 (8472)
 在Word中輸入乘號和除號的幾種方法 (7520)
 IE6用戶如何升級到IE7.0瀏覽器版本 (7513)
 更換開機畫面 Win XP開機畫面隨我定 (7321)
 Ping命令的使用技巧 常用網絡命令使用技巧詳解 (6612)
 如何保持網站排名課程記錄 --  電子商務網原創 (6520)
 智能ABC輸入法中的使用技巧 (6361)
 抓就要抓最清晰的圖片 (6227)
 最近更新
 
 保存網頁圖片的八種方法 (8月1日)
 我的QQ 我的信息中心 (8月1日)
 2006年值得關注的十個web2.0網站 (8月1日)
 用OE郵件發短信不再是夢想! (8月1日)
 傳統商務與電子商務的區別 (8月1日)
 讓Windows序列號原形畢露 (8月1日)
 近一年來RSS和Blog已逐漸成為互聯網發展的新潮流 (7月21日)
 如何讓搜索引擎收錄新網站 (8月14日)
 在Word中輸入乘號和除號的幾種方法 (8月1日)
 IE6用戶如何升級到IE7.0瀏覽器版本 (12月28日)
 更換開機畫面 Win XP開機畫面隨我定 (8月1日)
 Ping命令的使用技巧 常用網絡命令使用技巧詳解 (8月1日)
 如何保持網站排名課程記錄 --  電子商務網原創 (8月15日)
 智能ABC輸入法中的使用技巧 (8月1日)
 抓就要抓最清晰的圖片 (8月1日)
 文章搜索
 
搜索選項:            
  → 評論內容 (點擊查看)
(沒有相關評論)
  → 發表我的評論
您的姓名:  您的E-mail:

評論內容:
發表評論:  
   電子商務網每日推薦文章: [原創]橋頁之我見! 2019/8/31
    注:本文中所說的搜索引擎只是使用蜘蛛爬蟲自動收錄的搜索引擎,不包括需要人工審核的收錄搜索引擎。
    橋頁是一個簡單的頁面,是一個專門針對搜索引擎專門定制的頁面,他本身并沒有什么別的實際內容,僅僅是一大堆包括關鍵字的詞語或者短文和外鏈(沒有任何的內鏈)。橋頁可以集中一整頁的優勢去優化另一個相對重要的頁面,也可以制作一個非常適合某一搜索引擎收錄胃口的頁面獲得比較好的排名,然后讓其集中指向另外一個域名,從而達到優化該域名的目的。正因為此,也一度成為優化網站提高排名的重要手段之一。
    由于以前的橋頁僅僅是依靠一個專門的橋頁軟件生成一大堆包括關鍵字的純文本網頁,當用戶點擊搜索出的結果時,然后在這些網頁中做自動的跳轉,把用戶轉接到另外一個主頁上,或者在橋頁上放置一個連接,讓用戶自己點擊。而這往往并非用戶和搜索引擎所想要的東西,大家可想而知,這種方法對用戶以及搜索引擎本身的傷害,所以搜索引擎曾對這種頁面進行過大范圍的刪除和整改。而最近橋頁死灰復燃,現在的橋頁也已經和以前的橋頁有了本質的區別。以前的橋頁是沒有人工進行干預的,而現在的橋頁都是經過專門的針對關鍵字而寫出來的文章或詞匯,本質上已經不是橋頁了,我稱其為橋頁的升級版,或叫超橋頁。因為其加入了人為的干預,使其更具有了專業性和針對性。然后在這些關鍵字中做連接,將用戶引導到自己的主頁上,目的是希望以不同關鍵字來分別優化不同的頁面,來提高網站的流量。......查看詳細內容
關于我們 ┋ 網站留言 ┋ 電子商務網成員網站 ┋ SEO培訓基地 ┋ 地圖 ┋ SEO培訓 ┋ 管理 ┋ TOP
合作站點: 杰晶網絡 | 建材互聯 | Herbal | 淘寶優惠券 | 中國保健品網 | OilPainting | NHE | 杰米世界 | 南強新網
電子商務網 網絡營銷顧問:杰晶網絡 版權所有
Copyright © 2006 ECSoon.com All Rights Reserved
拳皇98登陆