台南網頁設計
台南廣告設計
SEO關鍵字排名
Google廣告行銷
企業建站方案
網路開店
問題與討論
ECFA
蘋果科技服務項目
 
 
  台南網頁設計 知識庫列表
台南平面設計 台南網站架設
SEO網站優化之网页查重技术

  SEO網頁查重技術起源於制檢測技術,即判斷一個文件內容是否存在抄襲、制另外一個或多個文件的技術。

  重復SEO網頁的存在,意味著這些網頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會在索引庫裏索引兩份相同的網頁。當有人查詢時,在搜索結果中就會出現重復的網頁鏈接。所以無論是從搜索體驗還是系統效率檢索質量來說這些重復網頁都是有害處的。總之對於搜索引擎來說,重的網頁內容是非常有害的。

  1993年Arizona大學的Manber(Google現副總裁、工程師)推出了一個sif工具,尋找相似文件。1995年Stanford大學的Brin(Sergey Brin,Google創始人之一)和Garcia-Molina等人在“數字圖書觀”工程中首次提出文本復制檢測機制COPS(Copy Protection System)系統與相應算法[Sergey Brin et al 1995].之後這種檢測重復技術被應用到搜索引擎中,基本的核心技術既比較相似。

  網頁和簡單的文檔不同,SEO優化網頁的特殊屬性具有內容和格式等標記,因此在內容和格式上的相同相似構成了4種網頁相似的類型。1、兩個頁面內容相同,但格式不同。2、兩個頁面內容格式完全相同。3、兩個頁面部分重要相同但格式不同。4、兩個頁面部分內容相同並且格式相同。

  實現方法:

  網頁查重,首先將網頁整理成為一個具有標題和正文的文檔,來方便查重。所以網頁查重又叫“文檔查重”。“文檔查重”一般被分為三個步驟,

  一、消重。

  二、特征抽取。

  三、相似度計算和評價。

  1.消重對於刪除重網站SEO內容,搜索引擎考慮到眾多收錄因素,所以使用了最簡單的最實用的方法。先被爬蟲抓取的頁面同時很大程度也保證了優先保留原創網頁。

  2.特征抽取我們在判斷相似物的時候,一般是才能用不變的特征進行對比,文件查重第一步也是進行特征抽取。也就是將文檔內容分解,由若幹組成文檔的特征集合表示,這一步是為了方面後面的特征比較計算相似度。特征抽取有很多方法,我們這裏主要說兩種比較經典的算法,“I-Match算法”、“Shingle算法”。“I-Match算法”是不依賴於完全的信息分析,而是使用數據集合的統計特征來抽取文檔的主要特征,將非主要特征拋棄。“Shingle算法”通過抽取多個特征詞匯,比較兩個特征集合的相似程度實現文檔查重。

   3.相似度計算和評價特征抽取完畢後,就需要進行特征對比,因網頁查重第二步就是相似度計算和評價。I-Match算法的特征只有一個,當輸入一篇文檔,根據詞匯的IDF值(逆文本頻率指數,Inverse document frequency縮寫為IDF)過濾出一些關鍵網頁設計特征,即一篇文章中特別高和特別低頻的詞匯往往不能反應這篇文章的本質。因此通過文檔中去掉高頻和低頻詞匯,並且計算出這篇文檔的唯一的Hash值(Hash簡單的說就是把數據值映射為地址。把數據值作為輸入,經計算後即可得到地址值。),那些Hash值相同的文檔就是重的。

  Shingle算法是抽取多個特征進行比較,所以處理起來比較雜一些,比較的方法是完全一致的Shingle個數。然後除以兩個文檔的Shingle總數減去一致的Shingle個數,這種方法計算出的數值為“Jaccard 系數”,它可以判斷集合的相似度。Jaccard 系數的計算方法集合的交集除以集合的並集。

  網頁查重工作是系統中不可缺少的,刪除了重復的頁面,所以搜索引擎優化的其他環節也會減少很多不必要的麻煩,節省了索引存儲空間、減少了查詢成本、提高了PageRank計算效率。方便了搜索引擎用戶。

文章源自:http://www.vastydesign.com.tw/
版權歸104網頁設計SEO行有限公司所有,若要轉載請標上文章源自,感謝您的合作!

台南網頁設計公司 台南網站設計
台南網頁設計
SEO,台南網頁設計
網頁設計  |   關於我們  |    服務項目   |   最新消息   |   作品&成功案例   |   知識庫   |   連絡我們   |   FAQ   |   網站地圖  |   JSEO-RSSRSS
 

水果派網頁設計公司給您的網站做最完美的SEO優化設計方案,讓您的站點在奇摩上曝光率更高,更多人點擊。

網頁設計