加入收藏
 地圖
 用戶登陸
 幫助中心
電子商務 SEO動態 SEO技術 SEO軟件 SEO推薦 網站留言 SEO用戶 SEO專欄 電子商務   SEO培訓
今天是:2019年11月3日 星期日   您現在位于: 首頁 →  SEO專欄 → GOOGLE搜索引擎研究(瀏覽貼子)
   GOOGLE搜索引擎研究  -  瀏覽貼子 (回復:0 瀏覽:827  杰米   [ 本版精華 ]  [ 版面管理 ]
 主題:面向搜索引擎的網站設計(二)
   
舍我!? 
等級: SEO管理員
頭銜:什么是頭銜?
貼子:83
積分:199
SEO幣:0
來自:山西運城
注冊:2006/6/8
          1
 面向搜索引擎的網站設計(二)
如何突出關鍵詞:面向主題(Theme)的關鍵詞匹配
 Theme Engine正在逐步超過PR,成為結果排序中更主要的因素,可以比較一下以下現象: 
為什么查“新聞”,“汽車”之類的文字,各種門戶網站的首頁不在第一位?要知道他們的頁面中都有相應頻道的鏈接文字的 
一篇新聞頁面中,搜索引擎如何不通過模板匹配,自動將新聞的主體和頁面中的頁頭,欄目導航條,頁尾等部分的內容區分開的? 
其實以上問題都可以歸結為網頁內容摘要的提取策略和關鍵詞在其中的命中:
首先將能夠描述一個頁面內容的分成以下幾種類型:

鏈入文字描述:inbound link text
http://www.searchenginedictionary.com/terms-inbound-link.shtml

HTML頁面標題:title 好標題一般會將頁面中最重要的關鍵詞放在最前面,比如:ABC-10型吸塵器 - XX家電城 
HTML內容主體:content text 
鏈出文字:outbound link text

如果按照以下規則:
一個頁面中關鍵詞命中權重:鏈入文字 > HTML標題文字 > HTML頁面主體內容 >> 出鏈文字,以上現象就比較好解釋了。
鏈入文字是頁面上看不見的,但鏈入文字對被鏈接頁面有巨大的作用:在現代搜索引擎在關鍵詞匹配的過程中,匹配的過程不只看當前頁面的內容摘要:很大程度上,不只看這個網頁自己說自己有什么內容,還要看別人如何鏈接時,如何描述你的網站別人怎么稱呼你,比你自己說自己更重要。。
比如查:“世界衛生組織”,返回結果中有 http://www.who.int/ 而這個頁面中是沒有中文的,之所以能匹配上,是因為很多鏈接它的中文網站使用了:<a href="http://www.who.int/";>世界衛生組織</a>,所以,這個頁面中不存在的中文關鍵詞也成為了頁面摘要的一部分。這樣一想,就可以知道鏈出鏈接的文字其實是為被鏈接的子頻道首頁或者內容詳情頁服務的。對自身頁面的關鍵詞密度只有負面的影響,這也是Google建議一個頁面中鏈接不要超過100個的原因:他根本不索引100個鏈接以后的內容。按照以上規則,搜索引擎將一篇新聞詳情頁中的新聞內容提取出來就是把頁面上所有帶HTTP鏈接的文字都去掉,就是新聞的內容部分了,更精確一些可以通過取最長文本段落等策略實現;而很多網站首頁或頻道首頁中幾乎全部都是鏈接,經過搜索引擎分析的結果就是:什么內容也沒有,能夠被命中的關鍵詞僅僅是別人鏈接你用的“網站首頁”和頻道標題Title中的站點名稱等的幾個關鍵詞,而頁面中其他的文字則遠遠不如相應子頻道和具體內容頁面的匹配度高,而搜索引擎能夠通過以上規則,讓用戶更快的直接定位到有具體內容的內容詳情頁面。因此希望通過一個首頁,盡可能多的命中所有希望推廣的關鍵詞是不可能的。讓網頁盡可能多的進入搜索引擎的索引,然后把握好整個網站的主題風格是非常重要的,讓網站的主題關鍵詞能夠比較均勻的按照金字塔模式分布到網站中可以參考:網站的主題金字塔設計          網站名稱(用戶通過1-2個抽象關鍵詞)
         /       \
    子頻道1   子頻道2 (用戶通過2-3個關鍵詞命中)
   /    \      /    \
產品1  產品2 文章1 文章2 (用戶通過3-4個關鍵詞命中:這種用戶最有價值)


不要空著標題:空著<title></title>無異于浪費了最有價值的一塊陣地;
傳統的頁面中,HTML頁面中會有類似以下的隱含信息,用于說明當前網頁的主要內容關鍵字:
<header>
    <meta name="keyword" content="mp3 download music...">
</header>
后來由于這種人工添加關鍵詞的方式被濫用,大量網頁中為了提高被搜索引擎命中的概率,經常添加一些和實際網頁內容無關的熱門關鍵比如:“music mp3 download”等,所以新一代的搜索引擎已經不再關心頁面頭文件中的人工meta keyword聲明,而頁面標題在搜索引擎的關鍵詞的命中命中過程中往往有著更高的比重,如果一個關鍵詞在標題中命中會比在頁面中命中有更高的得分,從而在相應的搜索結果排名中更靠前。 
標題長度和內容:不要過長,一般在40個字符以內,并充分突出關鍵詞的比重;
如果更長的標題搜索引擎一般會忽略掉,所以要盡可能將主要關鍵詞放在標題靠前的位置。省略掉不必要的形容詞吧,畢竟用戶主要通過名詞來找到需要的內容。標題內容:盡量用一些別人可以通過關鍵詞找到的字眼(也別太過頭,如果標題中的字眼超過1半內容中都沒有,有可能被搜索引擎排除出索引),因此基于web日志中來自其他搜索引擎的關鍵詞查詢統計非常必要。 
如果網頁很多的話,盡量使用不同的網頁標題,爭取讓自己網站的內容更多的進入搜索引擎索引范圍;
因為搜索引擎會根據頁面內容的相似度把一些內容當成重復頁面排除出索引范圍;
http://www.chedong.com/phpMan.php是我的網站上的一個小應用:一個web界面的unix命令手冊(man page),在以前的設計中所有動態頁面使用的都是同樣的標題:"phpMan: man page /perldoc /info page web interface" ,Google索引了大約3000多個頁面,后來我將頁面標題改成了"phpMan:  [命令名]"這樣的格式,比如:"phpMan: ls",這樣大部分動態頁面的標題就都不一樣了,一個月后Google從這個頁面入口索引了大約6000個頁面。因此,如果網站中很多網頁都使用相同的標題,比如:“新聞頻道”,“論壇”,這些頁面中很大一部分就會被排重機制忽略掉。 
除了<title></title>外,還可以用<h1></h1>標題行突出內容主題,加強標題的效果;
在我的網站設計中:我會把用<h1>[標題]</h1>這樣的模板把標題突出顯示,而不是通過改變字體的方式突出標題。 
其他網站設計提示
靜態鏈接:Blog網站另外一個優勢在于其網頁是靜態鏈接:動態網頁占到整個互聯網內容的90%以上。各個搜索引擎其實能夠表現的都只不過是互聯網的冰山一角(3-5%),不同的只是誰讓優質網頁排名靠前的策略更優秀而已:大部分搜索引擎都認為靜態鏈接的網頁是優質網頁,Google在優先抓取索引的網頁中70%以上是不帶參數鏈接的靜態網頁。而且即使同樣的內容,靜態網頁也會比動態網頁權重高:很容易理解:query?a=1&b=2這樣的鏈接由于參數順序顛倒的query?b=2&a=1完全相同。盡量使用靜態網頁:目前能夠動態網頁進行全面的索引還比較難,而即使是Google也更不會索引所有的內容,因此很少會對參數超過2個的動態網頁進行進一步的抓取和分析。以下是一個phpBB論壇頁面返回的HTTP頭信息: 
HTTP/1.1 200 OK
Date: Wed, 28 Jan 2004 12:58:54 GMT
Server: Apache/1.3.29 (Unix) mod_gzip/1.3.26.1a PHP/4.3.4
X-Powered-By: PHP/4.3.4
Set-Cookie: phpBB_data=a%3A0%3A%7B%7D; expires=Thu, 27-Jan-2005 12:58:54 GMT; path=/; 
Set-Cookie: phpBB_sid=09f67a83ee108ecbf11e35bb6f36fcec; path=/;
Content-Encoding: gzip
Cache-Control: private, pre-check=0, post-check=0, max-age=0
Expires: 0
Pragma: no-cache
Connection: close
Content-Type: text/html

為了避免隱私問題:Googlebot可以通過對頁面http header中的session id和session cookie進行一些甄別,這樣很多需要認證信息的論壇內容就無法進入索引了。
總體上說Google喜歡新的,靜態的內容。因此無論從效率上講還是方便搜索引擎收錄:使用內容發布系統將網站內容發布成靜態網頁都是非常必要的,從某種程度上說google friendly = anonymous cache friendly。
比如:http://www.chedong.com/phpMan.php/man/intro/3
http://www.chedong.com/phpMan.php?mode=man¶;meter=intro§ion=3這樣的鏈接更容易進入搜索引擎的索引。而且在URL中的命中也能突出關鍵詞。 
能夠進入Google索引的頁面數量越多越好。用類似以下的腳本可以統計自己的網站被搜索引擎索引的情況。
#!/bin/sh
YESTERDAY=`date -d yesterday +%Y%m%d`
# for FreeBSD: YESTERDAY=`date -v-1d +%Y%m%d`

LOG_FILE=''/home/apache/logs/access_log''    
網站目錄結構要扁平,因為每深一級目錄,PAGERANK降低1-2個檔次。假設首頁是3,其子可能目錄就是1了,更深可能就無法列入評級范圍了。

表現和內容的分離:“綠色”網頁
網頁中的javascript和css盡可能和網頁分離,一方面提高代碼重用度(也方便頁面緩存),另外一方面,由于有效內容占網頁長度的百分比高,也能提高相關關鍵詞在頁面中的比重也增加了。總之,應該鼓勵遵循w3c的規范,使用更規范的XHTML和XML作為顯示格式便于內容更長時間的保存。 
讓所有的頁面都有能夠快速入口:站點地圖,方便網頁爬蟲(spider)快速遍歷網站所有需要發布的內容。如果首頁就是用Flash或圖片進入的話,無異于將搜索引擎拒之門外,除了UI設計的用戶友好外,spider friendly也是非常重要的。 
保持網站自身的健康:經常利用壞鏈檢查工具檢查網站中是否有死鏈。 
保持網頁內容/鏈接的穩定性和持久性:在搜索引擎索引中網頁存在的歷史也是一個比較重要的因素,而且歷史比較久的網頁被鏈接的幾率越高。為了保證自己網頁能夠被比較持久的被其他網站的頁面引用,如果自己網頁中有鏈接更新時,最好能保留舊的頁面并做好鏈接轉向,以保持內容的連續性。要知道,把一個網站和內容在搜索引擎中的排名“培養”的很高是一件非常不容易的事情,誰都不希望好不容易自己的內容被別人找到了,點擊卻是“404 頁面不存在”吧,因此站點管理員對自身站點error.log的分析也是非常必要的。 
文件類型因素:Google有對PDF, Word(Power Point, Excel), PS文檔的索引能力,由于這種文檔的內容比一般的HTML經過了更多的整理,學術價值一般比較高,所以這些類型的文檔天生就比一般的HTML類型的文檔 PageRank要高。因此,對于比較重要的文檔:技術白皮書,FAQ,安裝文檔等建議使用PDF PS等高級格式存取,這樣在搜索結果中也能獲得比較靠前的位置。 
常常能發現門戶站點的一條新聞往往比其他站點的首頁排名還要靠前。因此一個站點總體PageRank提高了以后,往往自身一些并不重要的內容也會被同那些高PageRank的內容一起帶入被搜索引擎優先查詢的列表中。這樣經常造成很多大的開發站點的郵件列表歸檔往往比其他站點的首頁PageRank還要高。 
知己知彼——站點訪問統計/日志分析挖掘的重要性
網站設計不僅僅只是被動的迎合搜索引擎的索引,更重要是充分利用搜索引擎帶來的流量進行更深層次的用戶行為分析。目前,來自搜索引擎關鍵詞統計幾乎是各種WEB日志分析工具的標準功能,相信商業日志統計工具在這方面應該會有更強化的實現。WEB日志統計這個功能如此重要,以至于新的RedHat 8中已經將日志分析工具webalizer作為標準的服務器配置應用之一。


以Apache/webalizer為例,具體的做法如下: 
記錄訪問來源:
在Apache配置文件中設置日志格式為combined格式,這樣的日志中會包含擴展信息:其中有一個字段就是相應訪問的轉向來源: HTTP_REFERER,如果用戶是從某個搜索引擎的搜索結果中找到了你的網頁并點擊過來,日志中記錄的HTTP_REFERER就是用戶在搜索引擎結果頁面的URL,這個URL中包含了用戶查詢的關鍵詞。

在webalizer中缺省配置針對搜索引擎的統計:如何提取HTTP_REFERER中的關鍵詞
webalizer中缺省有針對yahoo, google等國際流行搜索引擎的查詢格式:這里我增加了針對國內門戶站點的搜索引擎參數設置
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine    sina.com.cn word=
SearchEngine    baidu.com   word=
SearchEngine    sohu.com    word=
SearchEngine    163.com q=

通過這樣設置webalizer統計時就會將HTTP_REFERER中來自搜索引擎的URL中的keyword提取出來,比如:所有來自 google.com鏈接中,參數q的值都將被作為關鍵詞統計下來:,從匯總統計結果中,就可以發現用戶是根據什么關鍵詞找到你的次數,以及找到你的用戶最感興趣的是那些關鍵詞等,進一步的,在webalizer中有設置還可以將統計結果倒出成CSV格式的日志,便于以后導入數據庫進行歷史統計,做更深層次的數據挖掘等。

以前通過WEB日志的用戶分析主要是簡單的基于日志中的訪問時間/IP地址來源等,很明顯,基于搜索引擎關鍵詞的統計能得到的分析結果更豐富、更直觀。因此,搜索引擎服務的潛在商業價值幾乎是不言而喻的,也許這也是Yahoo! Altavista等傳統搜索引擎網站在門戶模式后重新開始重視搜索引擎市場的原因,看看Google的年度關鍵詞統計就知道了,在互聯網上有誰比搜索引擎更了解用戶對什么更感興趣呢?


請看本站的反相鏈接統計:http://www.chedong.com/log/2003_6.log
需要注意的是:由于Google針對Windows 2000中的IE使用的是UTF-8方式的編碼,因此很多統計有時候需要在UTF-8方式下查看才是正確字符顯示。從統計中能夠感受到:在使用水平比較高的IT開發人員中Google已經成為最常用的搜索引擎。而使用百度的用戶也已經大大超過了傳統的搜狐,新浪等門戶站點,因此傳統門戶網站在搜索引擎上的優勢將是非常脆弱的。而從技術的發展趨勢來看,以后還會有更多的利用互聯網媒體做更深層次數據挖掘的服務模式出現:



[本貼已被 舍我!? 于 2006-6-13 14:51:44 修改過]
 
只要你面向陽光,黑暗就永遠在你身后。
 本貼發表時間:2006/6/13 14:50:32  
 分頁: [1]
主題貼類型:[ 正常 ] 
您是否還沒有 注冊 或還沒有 登陸 本站?!

   電子商務網每日推薦文章: 如何保持網站排名課程記錄 -- 電子商務網原創2019/11/3
    這個問題對于比較熟練的SEO,都沒有什么難處,因為大多SEO都掌握自己一整套的優化方案和保持排名方案,所以,這個內容屬于初級的問題~,我今天大概講一些方法和注意的地方,我個人觀點,既然懂得如何排上去,就用排上去的那套方法繼續維持排名,天下沒有免費的午餐,沒有誰永遠是第一, 也沒有排上去就掉不下來的第一~~,貴在堅持,OK,我們開始講內容,我們先說說昨天的內容~~
    關于網站改版,大多現在的網站管理人員,SEO,程序員等,都希望自己的網站能夠獲得好的名次,所以費盡了心思和力氣去給網站改版,修改關鍵字,調整網站結構.而且頻率也相當的快,有的2、3天就改版一次~~~ ,大家也許會問,那如果我不更新,網站不就沒有內容了? ......查看詳細內容
關于我們 ┋ 網站留言 ┋ 電子商務網成員網站 ┋ SEO培訓基地 ┋ 地圖 ┋ SEO培訓 ┋ 管理 ┋ TOP
合作站點: 杰晶網絡 | 建材互聯 | Herbal | 淘寶優惠券 | 中國保健品網 | OilPainting | NHE | 杰米世界 | 南強新網
電子商務網 網絡營銷顧問:杰晶網絡 版權所有
Copyright © 2006 ECSoon.com All Rights Reserved
拳皇98登陆 宁夏十一选五助手 股票涨跌由什么决定 微信彩票群 新疆十一选五预测号码 如何做一个股票分析师 七星彩的9zhu小复式组合 百赢棋牌正版官方下载 河南快赢481最近200期 安徽11选5开奖5结果昨天 加微信团队买彩真的能赚钱吗 青海十一选五下期预测号码 股票行情000524 中彩网七乐彩综合分布图 就爱玩棋牌游戏大厅 福彩开奖六加一规则 老11选5前3技巧