加入收藏
 地圖
 用戶登陸
 幫助中心
電子商務 SEO動態 SEO技術 SEO軟件 SEO推薦 網站留言 SEO用戶 SEO專欄 電子商務   SEO培訓
今天是:2019年11月3日 星期日   您現在位于: 首頁 →  SEO專欄 → YAHOO搜索引擎研究(瀏覽貼子)
   YAHOO搜索引擎研究  -  瀏覽貼子 (回復:0 瀏覽:869  杰米   [ 本版精華 ]  [ 版面管理 ]
 主題:搜索引擎Yahoo的分類體系及性能評價
   
舍我!? 
等級: SEO管理員
頭銜:什么是頭銜?
貼子:83
積分:199
SEO幣:0
來自:山西運城
注冊:2006/6/8
          1
 搜索引擎Yahoo的分類體系及性能評價
目前很多的搜索引擎都是將人工編制的等級式主題目錄和計算機檢索軟件提供的關鍵詞等檢索手段結合起來,完成網絡信息資源的組織任務。Yahoo就是這種等級式主題指南類搜索引擎的典型代表。 
  Yahoo的魅力,就在于它的可瀏覽式等級主題索引。按照主題建立分類索引,提供全面的分類體系結構,并結合高質量的檢索軟件,Yahoo成功地建立起了一套獨特的信息管理和組織機制,使得對網絡信息的全面檢索變成現實。現對Yahoo的類目體系、分類原理、檢索方式、性能評價等作進一步的探討。

 ■ 一、類目體系
Yahoo由14個基本大類組成,包括Art&Humanities(藝術與人文)、Business&Economy(商業與經濟)、Computers&Internet(電腦與網際網路/網絡)、Education(教育)、Entertainment(娛樂)、Government(政府)、Health(健康與醫藥)、News&Media(新聞與媒體)、Recreation&Sports(休閑與運動)、Reference(參考資料)、Regional(國家與地區)、Science(科學)、SocialScience(社會科學)、Society&Culture(社會與文化)。

  根據其擁有的信息或網站的多寡及知識組織的需要程度,每一個基本類目下細分不同層次的次類目或子類目,愈往下的子類目中的網站其主題愈特定。它建立了一個由類目、子類目等構成的可供瀏覽的相當詳盡的目錄等級結構。其類目設計合理,結構完整、全面,類目等級層次鮮明,各級詳略、寬泛程度不一,從而為網上豐富的信息資源的歸類,尤其是確切歸類提供了基礎。

 ■ 二、分類原理
  InternetScoutProject的分類專家AimeeGlassel認為,“印度著名分類專家和圖書館專家阮崗納贊的冒號分類法理論體系與Yahoo網絡信息資源的主體目錄之間存在著密切的聯系”,從而揭示了Yahoo應用分面分析方
法進行網絡信息資源的分類實質。具體說來,可從以下幾點來深入地理解Yahoo的分面分類原理或基本過程。

1.采用寬泛的主題領域建立分類索引

為了使其分類體系既具有無限的容納性,又具有相當的專指性,Yahoo采用較為寬泛的主題領域,通過分析兼綜合的方法建立較為完整的分類索引。這與分面分類的思想不謀而合,因為將知識分為寬泛的類目即分面,多方面地反映主題內容以避免列舉式類表的線性單向式的結構正是阮崗納贊冒號分類法的主要原則所在。

2.根據上下文進行信息內容的組合

  從Yahoo的分類結構外表看,也許會認為它與敘詞表很相近,因為Yahoo也是使用詞匯而非符號來組成相應的概念詞串。但是,從組合類目的能力看,它遠遠比普通的敘詞表復雜得多。通過分析Web頁面的內容特征,得
到由Yahoo分類體系結構中某些類目詞組成的概念詞串或標引詞串,將其放入相應的類目層次中。在Yahoo的概念詞串或檢索詞串中包含的獨立的詞匯都含有自身的名字,但是一旦與其它詞組合,則產生了一個上下文關系,擁有了一深層次的涵義。從這一點上說來,與分面分類法也是極為相似的。

3.利用冒號標記信息內容

現以“20世紀60年代印度在肺結核治療方面的研究”作為待分類標引的信息內容來具體考察兩者的標記制度:

在阮崗納贊的冒號分類法中,該內容標引為:L,45;421;6;253;f.44‘N5

用詞代替相應的符號,則為:

  Medicine,Lungs;Tuberculosis:Treatment;X-ray:Research.India‘1950

  如果將分面公式中的相應標點符號用冒號代替,由此所形成的字符串形式就是在Yahoo中用于描述信息內容的
方法,相應地表示為:

  Health:DiseasesandConditions:Tuberculosis

  可見兩者在信息描述上何其相似!Yahoo利用冒號作為統一的分隔符進行了信息內容的組織和描述,既保留了
原先的分面標記的特點,又在一定程度上簡化了標記制度,從而極大地提高了信息分類標引的效率。

4.提供不同的分類路徑入口

  “虛擬的信息集合”是Yahoo的一大優點,體現在其擁有的概念模式和引用次序(即分面排列次序)的靈活性
上。在傳統的圖書館中,一本書只能放在書架的某一固定位置上。但在數字化的世界里,電子信息資源卻不用再限制在唯一的物理位置上。我們可以將某一信息源分到類目結構的不同位置上。通過將分面分析方法應用到網絡信息資源的組織中,Yahoo能夠為某一信息源在其巨大的分類等級結構中提供不同的路徑分支入口,這樣就使其能夠從不同的路徑,為檢索相同內容的不同用戶提供服務,從而完成查詢。

  例如,現欲查找美國Wisconsin-Madison大學所在的網頁,Yahoo就能提供如下幾種分類或檢索路徑:

(1)若從Regional:類目入手,則相應的分類路徑為:Regional:U.S.States:Wisconsin:Cities:Madison:Education:CollegesandUniversities:
UniversityofWisconsin-Madison。

(2)若從Education類目入手,開始的幾級路徑為:Education:HigherEducation:CollegesandUniversities,在CollegesandUniversities目錄下選擇地理區域的子類目“[email protected]”后,可以看到,又返回到Regional目錄下,之后就與上述路徑相同了。其中的奧妙就在于符號“@”的運用,它提供類似于相關參照(crossreference)的作用,能夠指引用戶由某一子類目進入Yahoo的瀏覽性等級結構的其它分支中。

 ■ 三、檢索方式
  Yahoo能夠提供簡單檢索和細節檢索。前者主要檢索其分類結構中的一級目錄,后者可使用關鍵詞構成布爾邏輯式進行檢索,其檢索軟件主要由OpenText公司提供。兩者的結合堪稱珠聯壁合:一個提供強大的高質量的主題指南目錄,另一個則提供高水平的檢索工具。而且,Yahoo在檢索時,也不光檢索自身的主題目錄,同時也會相應地檢索OpenText公司提供的收有100萬Web文件的OpenText數據庫。


  誠然,Yahoo在檢索方式上上存在著一些缺陷,如:只能進行關鍵詞檢索,并且只支持布爾算符and和or,未提供near等,但通過在其主頁的末尾提供了其它引擎如ALTAVISTA、LYCOS等的超鏈接,指引用戶進入這些地方去搜索,從而彌補了Yahoo的若干缺陷。因此,從總體上說來,Yahoo仍然是WWW上最流行的查詢工具之一。

 ■ 四、性能評價
作為主題指南類搜索引擎的典范,Yahoo具有以下優點:

1.主題目錄與檢索軟件的完美結合

  采用分面分析的方法,由信息管理專家編制主題目錄,反映了人們在選擇和組織信息時的知識和智慧,提高了目錄編制的質量。同時,按照主題目錄以人工為主對提交的網頁進行篩選、歸類和組織,也能不斷克服單純由搜索軟件自動完成分類的缺陷,增強分類的條理性。嵌入相應的檢索軟件或工具,并與之相集成,提供高質、高效的檢索服務,從而加快了系統的反映速度,提高了檢索的準確性,使得檢索結果更接近用戶的信息需求。

2.信息檢索難度的降低

  Yahoo的數據庫按照14個大類(各大類下又包含數量不等的小類)組織,其分類體系非常詳盡,因此是進行寬泛主題檢索的良好起點,特別是對于那些新用戶和模糊需求的用戶而言,選擇瀏覽可逐級展開的主題索引比構造檢索式要自然得多。并且,在用戶所在的類目下,顯示了該級別的類目包含的條目數,如果用戶認為數量過多,還可在此范圍內使用關鍵詞檢索。Yahoo的目錄特征和利用上下文的服務使得能夠實現快速和容易的檢索,從而在一定程度上降低了互聯網信息檢索的難度,提高了系統的用戶友好性。

3.檢索結果的分類選擇

  Yahoo由分類路徑入手,最終將檢索結構分成類目輸出,從而將極大地推動信息的選擇。它還對結果列表中的相應內容進行必要加工,加上一些描述的詞組或句子,方便用戶瀏覽并選擇:如:〔*〕或〔cool〕標記表明該結果項在內容和版面設計都優于其他項;〔new〕表明是最近3日內收錄的最新內容;以及上述提及過的以“@”表示相關參照,以括號里的數字表示收錄的文件數量等等。另外,Yahoo增加了結果顯示的類型,可以以相關網站、相關網頁、新聞等形式輸出相應的檢索結果。總而言之,為了更好地實現為用戶服務的目的,Yahoo正不斷開發新的途徑和方法用以改善信息檢索服務。


  在總結Yahoo所具有的優勢的同時,也應注意它的缺陷,這些缺陷往往也正是主題指南類搜索引擎的共同弊病所在:

  1、由于互聯網信息的迅猛增長,使得采集信息的速度遠遠比不上網絡資源的增長速度,更勿論編制主題目錄的速度了。這就造成了所建立的數據庫規模較小,且在某些類目下收集的文件數量有限等缺點,使得用戶經常“乘興而來,敗興而歸”,滿足不了相應的信息需求。 


  2、簡單檢索表中檢索詞之間缺省設置為“.or.”,且內含的自動截詞功能,使得在檢索中往往會出現許多不相關的文件,導致查準率降低。


  3、為了適應不同用戶的查詢或檢索需求,Yahoo對相同的信息內容往往能提供不同的路徑入口,并以符號“@”建立相應的參照。這一方面加大了分類工作的難度,另一方面也使得其分類的一致性難以得到確切保障,所以,經常出現從某一路徑入手,卻無法查到Yahoo中所包含的信息內容的現象。


  4、待收錄的網頁或其它信息內容的復雜度的增加也在無形之中加大了確切分類的難度,如與ActiveX技術相關的文獻就很難在Yahoo中確切歸類。


  5、為了編制高質量的主題目錄并跟上網絡資源發展的速度,必須投入相當大的人力、物力和財力,且對從事該項工作的人員的素質要求也日漸提高。否則,將無法很好地保證其主題目錄的質量,也就從根本上無法提供優質的服務。


 ■ 五、啟示和建議
  Yahoo最關鍵也是最成功之處就在于它為搜索引擎,尤其是主題指南類的搜索引擎的設計和開發樹立了“摸板”。借鑒Yahoo先進的搜索引擎經驗,進一步完善網絡信息資源尤其是中文信息資源的組織和管理,是歷史賦予我們的責任。現就建立網上中文信息資源的高質、高效的“導航器”,提出以下幾點建議:

  1、Yahoo在數字化信息的組織中成功地應用分面分析的思想,建立起了一套完整、全面、等級層次鮮明的主題目錄體系以提高信息組織的質量,這一點值得我們借鑒與學習。


  目前,國內的許多中文引擎或者因沒有分類路徑入口,而不能跟上未來形勢的發展;或者因目錄體系缺乏必要的分類主題理論基礎,而給信息的確切歸類和準確檢索帶來了一系列的困難。我們并不一定要照搬Yahoo的分類模式。在具體的編制過程中,應從中國人的思維習慣、檢索習慣出發,結合國內已有的主題分類的理論體系(如:《中圖法》等),建立所需的分類框架。


  2、應逐步增大數據庫的規模,從而奠定成功的信息檢索的物質基礎。建議可以通過兩種方式補充數據庫的內容:一是鼓勵用戶將自己網頁的地址(URL)通過聯機表格遞交,二是由自身的巡視軟件不斷去發現網上新出現的文件,將之歸入數據庫,在補充的過程中,也應注意數據庫內容的定期更新。關于這一點,現在的一些中文搜索引擎做得還很不夠,往往只知盲目地填充信息,卻缺乏對庫內容應有的維護工作,導致數據庫龐大臃腫,檢索效率低,信息內容陳舊,查準率差。


  3、鑒于單純依賴手工進行信息歸類效率低的缺陷,應在這方面加強研究,考慮是否可將目前在文本環境中已經實現并在進一步完善的自動分類、自動標引和自動文摘等處理信息內容的手段用到網絡信息資源的組織上來。手工和機器輔助的結合,定能提高工作效率,改善信息組織、管理的質量。 


  另外,應繼續加強檢索軟件的研制和開發工作。WWW網頁內容多由圖像、動畫、聲音、視頻等多媒體信息構成。應積極探索這一類信息的檢索途徑,而不僅限于關鍵詞檢索方式。目前,對多媒體信息的存儲,標引和檢索正日益引起計算機和信息管理領域人士的注意。應密切跟蹤這方面技術的發展,并將其切實應用到中文引擎的檢索軟件的編制上來。


  4、參與信息采集、篩選和組織工作的人員素質的高低將直接或間接影響到編制的主題分類體系的質量。因此,各個從事網絡信息服務業的部門或企業,尤其是開發中文搜索引擎的部門或企業,應切實加強人員的培訓,特別是加強他們在信息分類組織、計算機檢索等方面的能力。網絡信息資源的組織和開發是一項艱難而又富有前途的工作,廣大的圖書情報界人士、信息管理和計算機領域的專家應盡快轉變觀念,加入到開發的行列中來,從而不斷提高隊伍的素質。
 
只要你面向陽光,黑暗就永遠在你身后。
 本貼發表時間:2006/6/16 9:28:11  
 分頁: [1]
主題貼類型:[ 正常 ] 
您是否還沒有 注冊 或還沒有 登陸 本站?!

   電子商務網每日推薦文章: 如何保持網站排名課程記錄 -- 電子商務網原創2019/11/3
    這個問題對于比較熟練的SEO,都沒有什么難處,因為大多SEO都掌握自己一整套的優化方案和保持排名方案,所以,這個內容屬于初級的問題~,我今天大概講一些方法和注意的地方,我個人觀點,既然懂得如何排上去,就用排上去的那套方法繼續維持排名,天下沒有免費的午餐,沒有誰永遠是第一, 也沒有排上去就掉不下來的第一~~,貴在堅持,OK,我們開始講內容,我們先說說昨天的內容~~
    關于網站改版,大多現在的網站管理人員,SEO,程序員等,都希望自己的網站能夠獲得好的名次,所以費盡了心思和力氣去給網站改版,修改關鍵字,調整網站結構.而且頻率也相當的快,有的2、3天就改版一次~~~ ,大家也許會問,那如果我不更新,網站不就沒有內容了? ......查看詳細內容
關于我們 ┋ 網站留言 ┋ 電子商務網成員網站 ┋ SEO培訓基地 ┋ 地圖 ┋ SEO培訓 ┋ 管理 ┋ TOP
合作站點: 杰晶網絡 | 建材互聯 | Herbal | 淘寶優惠券 | 中國保健品網 | OilPainting | NHE | 杰米世界 | 南強新網
電子商務網 網絡營銷顧問:杰晶網絡 版權所有
Copyright © 2006 ECSoon.com All Rights Reserved
拳皇98登陆 什么软件更赚钱的软件是什么意思 至尊炼金提取器能赚钱吗 当当链怎么赚钱 汪峰鸟巢演唱会赚钱了没 dnf手游如何赚钱之道 老公赚钱老婆花这类歌曲 滴答拼车赚钱技巧 梦想世界 多开赚钱 卖保健按摩器材赚钱吗 律师证挂靠可以赚钱吗 帮人审车怎么赚钱 恒生指数怎么比较买跌赚钱了 动画师好赚钱吗 投资模具厂赚钱吗 收藏名表能赚钱吗 新加坡按摩师赚钱吗