《
搜索引擎知識:網(wǎng)頁的查重技術(shù)》文章地址:http://www.tfxk.com/zixun/0416363E2013.htm
特征抽取結(jié)束后,就須要進行特征比較,因網(wǎng)頁查重第二步就是相似度計算和評價。
“I-Match算法”是不依附于完整的信息剖析,而是應(yīng)用數(shù)據(jù)聚集的統(tǒng)計特征來抽取文檔的主要特征,將非重要特點擯棄。
“Shingle算法”通過抽取多個特征詞匯,比較兩個特征集合的相似程度實現(xiàn)文檔查重。
3.消重
1.特征抽取
一、特征抽取。
三、消重。
咱們在判定相似物的時候,個別是才干用不變的特征進行對照,文件查重第一步也是進行特征抽取。也就是將文檔內(nèi)容分解,由若干組成文檔的特征集合表現(xiàn),這一步是為了方面后面的特征比較計算相似度。
I-Match算法的特征只有一個,當輸入一篇文檔,依據(jù)詞匯的IDF值(逆文本頻率指數(shù),Inverse document frequency縮寫為IDF)過濾出一些要害特征,即一篇文章中特殊高和特別低頻的詞匯往往不能反映這篇文章的實質(zhì)。因而通過文檔中去掉高頻和低頻詞匯,并且計算出這篇文檔的獨一的Hash值(Hash簡略的說就是把數(shù)據(jù)值映射為地址。把數(shù)據(jù)值作為輸入,網(wǎng)站開發(fā),經(jīng)計算后即可得到地址值。),那些Hash值雷同的文檔就是反復(fù)的。
4、兩個頁面部門主要相同但格式不同。
實現(xiàn)方法:
1、兩個頁面內(nèi)容格局完全相同。
特征抽取有許多方法,我們這里主要說兩種比較經(jīng)典的算法,“I-Match算法”、“Shingle算法”。
網(wǎng)頁查重,首先將網(wǎng)頁收拾成為一個存在題目和注釋的文檔,來便利查重。所以網(wǎng)頁查重又叫“文檔查重”。“文檔查重”普通被分為三個步驟,
二、相似度計算跟評估。
1993年Arizona大學(xué)的Manber(Google現(xiàn)副總裁、工程師)推出了一個sif工具,尋找相似文件。1995年Stanford大學(xué)的Brin(Sergey Brin,Google開創(chuàng)人之一)和Garcia-Molina等人在“數(shù)字圖書觀”工程中首次提出文本復(fù)制檢測機制COPS(Copy Protection System)系統(tǒng)與相應(yīng)算法[Sergey Brin et al 1995].之后這種檢測重復(fù)技術(shù)被利用到搜索引擎中,基礎(chǔ)的中心技術(shù)既比較相似,成都網(wǎng)站開發(fā)公司。
網(wǎng)頁和簡單的文檔不同,網(wǎng)頁的特別屬性具備內(nèi)容和格式等標志,因此在內(nèi)容和格式上的相同相似形成了4種網(wǎng)頁相似的類型。
3、兩個頁面局部內(nèi)容相同并且格式相同。
2.相似度計算和評價
網(wǎng)頁查重技術(shù)來源于復(fù)制檢測技術(shù),即判斷一個文件內(nèi)容是否存在剽竊、復(fù)制另外一個或多個文件的技巧。
網(wǎng)頁查重工作是體系中不可缺乏的,刪除了重復(fù)的頁面,所以搜尋引擎的其余環(huán)節(jié)也會減少良多不用要的麻煩,節(jié)儉了索引存儲空間、減少了查問本錢、進步了PageRank計算效力。方便了搜索引擎用戶。
2、兩個頁面內(nèi)容相同,但格式不同。
Shingle算法是抽取多個特征進行比較,所以處置起來比較龐雜一些,比擬的辦法是完全一致的Shingle個數(shù)。而后除以兩個文檔的Shingle總數(shù)減去一致的Shingle個數(shù),這種方式盤算出的數(shù)值為“Jaccard 系數(shù)”,它能夠斷定集合的類似度。Jaccard 系數(shù)的計算方法集合的交加除以集合的并集。
對搜索引擎來說,重復(fù)的網(wǎng)頁內(nèi)容是十分有害的,成都網(wǎng)站建設(shè)報價。重復(fù)網(wǎng)頁的存在象征著這些網(wǎng)頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制造中可能會在索引庫里索引兩份相同的網(wǎng)頁。當有人查詢時,在搜索成果中就會呈現(xiàn)重復(fù)的網(wǎng)頁鏈接。所以無論是從搜索休會仍是系統(tǒng)效率檢索品質(zhì)來說這些重負網(wǎng)頁都是有害處的。
對于刪除重復(fù)內(nèi)容,搜索引擎斟酌到眾多收錄因素,所以使用了最簡單的最適用的方法。先被爬蟲抓取的頁面同時很大水平也保障了優(yōu)先保存原創(chuàng)網(wǎng)頁。
(責任編輯:網(wǎng)站建設(shè))
搜索引擎知識:網(wǎng)頁的查重技術(shù)相關(guān)文章