加入收藏
 地圖
 用戶登陸
 幫助中心
電子商務 SEO動態 SEO技術 SEO軟件 SEO推薦 網站留言 SEO用戶 SEO專欄 電子商務   SEO培訓
今天是:2020年6月3日 星期三   您現在位于: 首頁 →  SEO技術 → 電子商務推廣(電子商務推廣)

中文搜索引擎技術揭密:網絡蜘蛛

2020/6/3  電子商務網  瀏覽選項:    本文已被瀏覽 1308 次
隨著搜索經濟的崛起,人們開始越加關注全球各大搜索引擎的性能、技術和日流量。作為企業,會根據搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網民,會根據搜索引擎的性能和技術來選擇自己喜歡的引擎查找資料;作為學者,會把有代表性的搜索引擎作為研究對象……
  而作為一個網站的經營者,其更關心的或許是如何通過網絡載體讓更多的網民知道自己的網站,進而獲得更高的流量和知名度。這其中,搜索引擎已經成了一個重要的且是**的宣傳途徑。一方面,搜索引擎會主動出擊,尋找網絡上的各種網頁數據,并在后臺按相關條件進行索引;另一方面,各大網站為了能讓自己的內容更多的通過搜索引擎向網民展示,都開始對網站結構進行重大調整,其中包括扁平化結構設計、動態(網頁)轉靜態(網頁)、Sitemap等。
  這些看來不經意的舉動都讓我們切身感受到搜索引擎對我們網絡使用方式的改變起到了重要作用。并且,正因為搜索引擎的興起以及社會各界對其重視程度日漸高漲,還由此創造了一個全新的職位——SEO。實際上,搜索引擎經濟的崛起,又一次向人們證明了網絡所蘊藏的巨大商機。網絡離開了搜索將只剩下空洞雜亂的數據,以及大量等待去費力挖掘的金礦。
  搜索引擎一直專注于提升用戶的體驗度,其用戶體驗度則反映在三個方面:準、全、快。用專業術語講是:查準率、查全率和搜索速度(即搜索耗時)。其中最易達到的是搜索速度,因為對于搜索耗時在1秒以下的系統來說,訪問者很難辨別其快慢了,更何況還有網絡速度的影響。因此,對搜索引擎的評價就集中在了前兩者:準、全。中文搜索引擎的“準”,需要保證搜索的前幾十條結果都和搜索詞十分相關,這需由“分詞技術”和“排序技術”來決定;中文搜索引擎的“全”則需保證不遺漏某些重要的結果,而且能找到最新的網頁,這需要搜索引擎有一個強大的網頁收集器,一般稱為“網絡蜘蛛”,也有叫“網頁機器人”。
  研究搜索引擎技術的文章不少,但大部分討論的是如何評價網頁的重要性,對于網絡蜘蛛研究的文章不多。網絡蜘蛛技術并不是一項十分高深的技術,但要做一個強大的網絡蜘蛛,卻非易事。在目前磁盤容量已經不是瓶頸的時候,搜索引擎一直在擴大自己的網頁數量。最大的搜索引擎Googlehttp://www.google.com)從2002年的10億網頁增加到現在近40億網頁;最近雅虎搜索引擎http://search.yahoo.com/)號稱收錄了45億個網頁;國內的中文搜索引擎百度http://www.baidu.com)的中文頁面從兩年前的七千萬頁增加到了現在的兩億多。據估計,整個互聯網的網頁數達到100多億,而且每年還在快速增長。因此一個優秀的搜索引擎,需要不斷的優化網絡蜘蛛的算法,提升其性能。
  或許有些人有疑問,為何搜索引擎需要用網絡蜘蛛抓取網站所有的網頁,為什么不在搜索者輸入關鍵詞后只把那些需要的結果抓取過來?這實際上是效率問題,搜索引擎不可能在搜索時實時去檢查每個網頁,而是需要把網頁先抓取下來,按照關鍵詞建立好索引,每次搜索的結果都會直接從搜索引擎建立好索引的數據庫中查找,然后把結果返回給訪問者。本文主要介紹網絡蜘蛛的相關技術。 
  網絡蜘蛛基本原理
  網絡蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
  對于搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能的,從目前公布的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸,無法遍歷所有的網頁,有許多網頁無法從其它網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題,如果按照每個頁面的平均大小為20K計算(包含圖片),100億網頁的容量是100×2000G字節,即使能夠存儲,下載也存在問題(按照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才能把所有網頁下載完畢)。同時,由于數據量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。
  在抓取網頁的時候,網絡蜘蛛一般有兩種策略:廣度優先和深度優先。廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網絡蜘蛛并行處理,提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。
  由于不可能抓取所有的網頁,有些網絡蜘蛛對一些不太重要的網站,設置了訪問的層數。例如,以A為起始網頁,屬于0層,B、C、D、E、F屬于第1層,G、H屬于第2層,I屬于第3層。如果網絡蜘蛛設置的訪問層數為2的話,網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對于網站設計者來說,扁平化的網站結構設計有助于搜索引擎抓取其更多的網頁。
  網絡蜘蛛在訪問網站網頁的時候,經常會遇到加密數據和網頁權限的問題,有些網頁是需要會員權限才能訪問。當然,網站的所有者可以通過協議讓網絡蜘蛛不去抓。ㄏ滦」潟榻B),但對于一些出售報告的網站,他們希望搜索引擎能搜索到他們的報告,但又不能完全**的讓搜索者查看,這樣就需要給網絡蜘蛛提供相應的用戶名和密碼。網絡蜘蛛可以通過所給的權限對這些網頁進行網頁抓取,從而提供搜索。而當搜索者點擊查看該網頁的時候,同樣需要搜索者提供相應的權限驗證。  網站與網絡蜘蛛
  網絡蜘蛛需要抓取網頁,不同于一般的訪問,如果控制不好,則會引起網站服務器負擔過重。今年4月,淘寶網http://www.taobao.com)就因為雅虎搜索引擎的網絡蜘蛛抓取其數據引起淘寶網服務器的不穩定。網站是否就無法和網絡蜘蛛交流呢?其實不然,有多種方法可以讓網站和網絡蜘蛛進行交流。一方面讓網站管理員了解網絡蜘蛛都來自哪兒,做了些什么,另一方面也告訴網絡蜘蛛哪些網頁不應該抓取,哪些網頁應該更新。
  每個網絡蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發送一個請求,這個請求中就有一個字段為User-agent,用于標識此網絡蜘蛛的身份。例如Google網絡蜘蛛的標識為GoogleBot,Baidu網絡蜘蛛的標識為BaiDuSpider,Yahoo網絡蜘蛛的標識為Inktomi Slurp。如果在網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的網絡蜘蛛過來過,什么時候過來的,以及讀了多少數據等等。如果網站管理員發現某個蜘蛛有問題,就通過其標識來和其所有者聯系。
  網絡蜘蛛進入一個網站,一般會訪問一個特殊的文本文件Robots.txt,這個文件一般放在網站服務器的根目錄下,如http://www.blogchina.com/robots.txt。網站管理員可以通過robots.txt來定義哪些目錄網絡蜘蛛不能訪問,或者哪些目錄對于某些特定的網絡蜘蛛不能訪問。例如有些網站的可執行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那么網站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:
  User-agent: *
  Disallow:
  當然,Robots.txt只是一個協議,如果網絡蜘蛛的設計者不遵循這個協議,網站管理員也無法阻止網絡蜘蛛對于某些頁面的訪問,但一般的網絡蜘蛛都會遵循這些協議,而且網站管理員還可以通過其它方式來拒絕網絡蜘蛛對某些網頁的抓取。
  網絡蜘蛛在下載網頁的時候,會去識別網頁的HTML代碼,在其代碼的部分,會有META標識。通過這些標識,可以告訴網絡蜘蛛本網頁是否需要被抓取,還可以告訴網絡蜘蛛本網頁中的鏈接是否需要被繼續跟蹤。例如:表示本網頁不需要被抓取,但是網頁內的鏈接需要被跟蹤。
  現在一般的網站都希望搜索引擎能更全面的抓取自己網站的網頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網站。為了讓本網站的網頁更全面被抓取到,網站管理員可以建立一個網站地圖,即Site Map。許多網絡蜘蛛會把sitemap.htm文件作為一個網站網頁爬取的入口,網站管理員可以把網站內部所有網頁的鏈接放在這個文件里面,那么網絡蜘蛛可以很方便的把整個網站抓取下來,避免遺漏某些網頁,也會減小對網站服務器的負擔。 
  內容提取
  搜索引擎建立網頁索引,處理的對象是文本文件。對于網絡蜘蛛來說,抓取下來網頁包括各種格式,包括html、圖片、doc、pdf、多媒體、動態網頁及其它格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息,一方面對搜索引擎的搜索準確性有重要作用,另一方面對于網絡蜘蛛正確跟蹤其它鏈接有一定影響。
  對于doc、pdf等文檔,這種由專業廠商提供的軟件生成的文檔,廠商都會提供相應的文本提取接口。網絡蜘蛛只需要調用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關的信息。
  HTML等文檔不一樣,HTML有一套自己的語法,通過不同的命令標識符來表示不同的字體、顏色、位置等版式,如:、、等,提取文本信息時需要把這些標識符都過濾掉。過濾標識符并非難事,因為這些標識符都有一定的規則,只要按照不同的標識符取得相應的信息即可。但在識別這些信息的時候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標題、是否是加粗顯示、是否是頁面的關鍵詞等,這些信息有助于計算單詞在網頁中的重要程度。同時,對于HTML網頁來說,除了標題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點關系也沒有,在提取網頁內容的時候,也需要過濾這些無用的鏈接。例如某個網站有“產品介紹”頻道,因為導航條在網站內每個網頁都有,若不過濾導航條鏈接,在搜索“產品介紹”的時候,則網站內每個網頁都會搜索到,無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統計大量的網頁結構規律,抽取一些共性,統一過濾;對于一些重要而結果特殊的網站,還需要個別處理。這就需要網絡蜘蛛的設計有一定的擴展性。
  對于多媒體、圖片等文件,一般是通過鏈接的錨文本(即,鏈接文本)和相關的文件注釋來判斷這些文件的內容。例如有一個鏈接文字為“張曼玉照片”,其鏈接指向一張bmp格式的圖片,那么網絡蜘蛛就知道這張圖片的內容是“張曼玉的照片”。這樣,在搜索“張曼玉”和“照片”的時候都能讓搜索引擎找到這張圖片。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的了解文件的內容。
  動態網頁一直是網絡蜘蛛面臨的難題。所謂動態網頁,是相對于靜態網頁而言,是由程序自動生成的頁面,這樣的好處是可以快速統一更改網頁風格,也可以減少網頁所占服務器的空間,但同樣給網絡蜘蛛的抓取帶來一些麻煩。由于開發語言不斷的增多,動態網頁的類型也越來越多,如:asp、jsp、php等。這些類型的網頁對于網絡蜘蛛來說,可能還稍微容易一些。網絡蜘蛛比較難于處理的是一些腳本語言(如VBScript和javascript)生成的網頁,如果要完善的處理好這些網頁,網絡蜘蛛需要有自己的腳本解釋程序。對于許多數據是放在數據庫的網站,需要通過本網站的數據庫搜索才能獲得信息,這些給網絡蜘蛛的抓取帶來很大的困難。對于這類網站,如果網站設計者希望這些數據能被搜索引擎搜索,則需要提供一種可以遍歷整個數據庫內容的方法。
  對于網頁內容的提取,一直是網絡蜘蛛中重要的技術。整個系統一般采用插件的形式,通過一個插件管理服務程序,遇到不同格式的網頁采用不同的插件處理。這種方式的好處在于擴充性好,以后每發現一種新的類型,就可以把其處理方式做成一個插件補充到插件管理服務程序之中。
  更新周期
  由于網站的內容經常在變化,因此網絡蜘蛛也需不斷的更新其抓取網頁的內容,這就需要網絡蜘蛛按照一定的周期去掃描網站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經過期的死鏈接。
  搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長,則總會有一部分新生成的網頁搜索不到;周期過短,技術實現會有一定難度,而且會對帶寬、服務器的資源都有浪費。搜索引擎的網絡蜘蛛并不是所有的網站都采用同一個周期進行更新,對于一些重要的更新量大的網站,更新的周期短,如有些新聞網站,幾個小時就更新一次;相反對于一些不重要的網站,更新的周期就長,可能一兩個月才更新一次。
  一般來說,網絡蜘蛛在更新網站內容的時候,不用把網站網頁重新抓取一遍,對于大部分的網頁,只需要判斷網頁的屬性(主要是日期),把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。
  結論
  本文主要討論了網絡蜘蛛相關的技術要點,如果要設計好的網絡蜘蛛,需要了解更多的技術細節。
  網絡蜘蛛在搜索引擎中占有重要位置,對搜索引擎的查全、查準都有影響,決定了搜索引擎數據容量的大小,而且網絡蜘蛛的好壞直接影響搜索結果頁中的死鏈接(即鏈接所指向的網頁已經不存在)的個數。目前如何發現更多的網頁、如何正確提取網頁內容、如果下載動態網頁、如何提供抓取速度、如何識別網站內內容相同的網頁等都是網絡蜘蛛需要進一步改進的問題。
 發布人:杰米  [ → 我要發表文章 ] 上篇文章:擁有營銷網站十大好處
下篇文章:網頁排名優化中常見的作弊行為
→ 主題所屬分類:  電子商務推廣 → 電子商務推廣 → 『關閉窗口』
另類:保存Flash捷徑
刪除多余系統的系統還原點
Word中輸入能跟在文字后面顯示的..
基本應用 WinXP 寬帶應用技巧
故障現象 解決ADSL撥號故障的“..
7城市網民調查顯示網上交易市場前景..
最簡單的集成SP4方法
全面軟優化之加快開機的速度 Win..
軟件安裝經典故障集錦
讓系統無拘無束 打造綠色電腦的空間..
index.dat一直在做什么 小..
網上開店成新職業 辭掉工作專營網店
自制個性QQ頭像
eBay易趣悄然挺進B2C力拼阿里..
版權證書讓Word文檔更安全(1)..
網上購物五大絕招
Web2.0營銷的三大營銷意義
切忌一個分區裝多個系統
局域網中的另類聊天方法
爆笑愚樂:乾坤大挪移
特殊用途的IP地址介紹
最新版IE7瀏覽器的功能
新版亮相(一) 騰訊QQ 2003..
玩轉系統 Windows系統補丁知..
FlashGet1.50新功能新體驗
怎樣避免被搜索引擎視為作弊
怎樣DIY個性QQ空間(1) 怎樣..
找最近的服務器 加快Foxmail..
巧設置在Windows中實現一鍵關機
Windows Server 20..
年終賀歲 QQ直播Beta3內測版..
Win XP中的另一個還原專家
殺毒處理 用好您的殺毒軟件
2005年七大賺錢方式
免費難熬賺錢心切 淘寶手忙腳亂說明啥
MYIE預覽新功能一 MyIM20..
合理設置Word的智能粘貼功能
怎樣恢復任務管理器外觀
高春輝談手機之家
電子商務在中國:7大障礙7種對策
Windows設置大師全接觸(上)..
合理分區和定期清理 如何讓硬盤“硬..
實現操作部分(一) 在Win200..
讓你的系統日期和時間大變臉
將Windows任務欄隱藏到底
 熱門文章
 
 保存網頁圖片的八種方法 (53559)
 我的QQ 我的信息中心 (47781)
 2006年值得關注的十個web2.0網站 (39722)
 傳統商務與電子商務的區別 (11547)
 讓Windows序列號原形畢露 (10932)
 近一年來RSS和Blog已逐漸成為互聯網發展的新潮流 (9303)
 如何讓搜索引擎收錄新網站 (8334)
 如何保持網站排名課程記錄 --  電子商務網原創 (7586)
 在Word中輸入乘號和除號的幾種方法 (7374)
 IE6用戶如何升級到IE7.0瀏覽器版本 (7227)
 更換開機畫面 Win XP開機畫面隨我定 (7125)
 Ping命令的使用技巧 常用網絡命令使用技巧詳解 (6493)
 智能ABC輸入法中的使用技巧 (6174)
 抓就要抓最清晰的圖片 (6156)
 微軟推免費文件夾加密軟件 (5964)
 最近更新
 
 保存網頁圖片的八種方法 (8月1日)
 我的QQ 我的信息中心 (8月1日)
 2006年值得關注的十個web2.0網站 (8月1日)
 傳統商務與電子商務的區別 (8月1日)
 讓Windows序列號原形畢露 (8月1日)
 近一年來RSS和Blog已逐漸成為互聯網發展的新潮流 (7月21日)
 如何讓搜索引擎收錄新網站 (8月14日)
 如何保持網站排名課程記錄 --  電子商務網原創 (8月15日)
 在Word中輸入乘號和除號的幾種方法 (8月1日)
 IE6用戶如何升級到IE7.0瀏覽器版本 (12月28日)
 更換開機畫面 Win XP開機畫面隨我定 (8月1日)
 Ping命令的使用技巧 常用網絡命令使用技巧詳解 (8月1日)
 智能ABC輸入法中的使用技巧 (8月1日)
 抓就要抓最清晰的圖片 (8月1日)
 微軟推免費文件夾加密軟件 (8月1日)
 文章搜索
 
搜索選項:            
  → 評論內容 (點擊查看)
(沒有相關評論)
  → 發表我的評論
您的姓名:  您的E-mail:

評論內容:
發表評論:  
   電子商務網每日推薦文章: 提高yahoo排名的搜索引擎優化技術 2020/6/3
      在歐美國家,使用yahoo搜索引擎(英文yahoo搜索引擎,下同)人非常多,在某些國家甚至于達到或超過Google的使用量。yoo曾經有一個網站在yahoo搜索引擎里的排名非常好,從這個網站的情況得知,yahoo搜索引擎流量的客戶轉化率很高。因此,我們做好yahoo的搜索引擎優化工作,使得網站在yahoo的里良好的表現,將會使我們的網站具有更大的價值。
    yahoo搜索引擎在2006年7月做了一次比較大的更新。這次更新后,很多靠留言、發垃圾連接而取得良好表現的網站,排名掉下來了,可以看出yahoo增加了對垃圾連接的過濾。這次更新之后,yahoo的搜索結果,有向Google靠攏的趨勢,可能各大搜索引擎算法中相同的部分越來越多了。
    yoo認為yahoo搜索引擎優化的要點主要有以下幾點。
    一. 豐富的網站內容。
    任何一個網站,如果想在搜索引擎中有良好的表現,豐富的內容都是必須的。不只是對于yahoo搜索引擎,任何一個搜索引擎都青睞具有豐富內容的網站,都會給這樣網站以好的表現。
    二. 大量的外部連接。
    yahoo搜索引擎非常注重外部連接的數量,只要有大量的外部連接,很容易在yahoo取得良好的表現。作為一個網站來說,總是希望每個頁面在搜索引擎里都能有好的表現,因此我們可以為網站內部重要的網頁都做一些外部連接,對這些頁面在yahoo的排名有很大的好處,可以使得這些頁面在yahoo有良好的排名。yoo自己就是這么做的,在對自己網站的200多個頁面都做了一些外部連接,連接生效后,這些網頁在yahoo搜索引擎的排名上升了很多。 ......查看詳細內容
關于我們 ┋ 網站留言 ┋ 電子商務網成員網站 ┋ SEO培訓基地 ┋ 地圖 ┋ SEO培訓 ┋ 管理 ┋ TOP
合作站點: 杰晶網絡 | 建材互聯 | Herbal | 淘寶優惠券 | 中國保健品網 | OilPainting | NHE | 杰米世界 | 南強新網 | 十大建材品牌 | 建材市場 | 新聞熱點 | 建材百科
電子商務網 網絡營銷顧問:杰晶網絡 版權所有
Copyright © 2006 ECSoon.com All Rights Reserved
拳皇98登陆 北京11选五走势图一 1分快3怎么玩稳赚 安徽十一选五开奖直播 辽宁35选7普通走势图 千炮捕鱼2 吉祥棋牌最新版下载? 天津麻将机 广东快乐10分破解 3d毒胆独胆预测专家 365体育比分,360足球直播统计局 浙江6十1几点开奖 微信捕鱼漏洞免费到账2000 开元棋牌官网登录 广东闲来麻将有挂吗 内蒙古11选5规律 今天排列三试机号和开机号