? 百度专利:网页结构相似性确定方法 - 金戈铁马SEO培训网
當前位置 : 超級SEO培訓網 / 案例研究

百度專利:網頁結構相似性確定方法

金戈鐵馬SEO培訓網   http://www.sdcdrg.com/   April-15 13:02:11

百度專利:網頁結構相似性確定方法 (2009 年申請,下面的一些標注我會用紅字)

摘要:

該方法包括:根據網頁的DOM樹確定網頁的模板特征向量;對模板特征向量計算網頁結構相似性,并進行查找或類聚。通過上述處理,克服了現有技術中不能夠計算網頁結構相似性的缺陷,當人工發現其中某個作弊網站時,可以通過查找具有相似的模板特征向量的網站首頁,找到所有具有相同網頁結構的作弊網站。此外,還可以通過對所有網站首頁模板的模板特征向量進行類聚和查找來自動快速發現作弊網站的集合。

感覺百度這個專利是用來對付站群的,原來 09 年百度就開始注意站群了。

確定網頁結構相似性的主要步驟:

1.根據網頁的DOM樹確定網頁模板特征向量;
2.對所述模板特征向量計算網頁結構相似性,并進行查找或類聚。

第一條比較好理解,第二條包含太多具體的運算和不為人知的公式 (如國平老大所言,這些東西適當看看,不必死鉆)...本人能力有限,就說說第一條:

根據網頁的DOM樹確定網頁的模板特征向量包括:

1.將所述DOM樹中的節點或節點的組合劃分為不同的特征單元;

百度在肢解你的網頁,拆分為title節點,body節點,body下又包含著眾多的子節點,每個div,每個img,等等,都有可能被拆分為一個節點。

2.確定所述特征單元映射到高維特征向量后所在的維數;

百度這里采用的是哈希計算。哈希計算中就包含大家都猜想搜索引擎可能用來識別為原創的MD5函數。不過在這不是用來識別偽原創的,而是用來確定某一個節點在下面的特征向量中所處于的維數的。比如 div id=abc 這個節點,假設通過哈希函數計算出的數值等于123,那么這個節點所代表的特征單元將位于最終的模板特征向量的第123個維數上。

3.根據所述特征單元在所述DOM樹中的權重值確定所述特征單元在所述維數上的實數值,得到高維特征向量值;

在2中我們確定了維數,也就是這個特征單元在這個模板特征向量上的位置了,而在這一步中,百度在計算這個維數的實數值。

4.將所述高維特征向量進行壓縮,得到最終的所述模板特征向量。

通過2和3,我們即得出了維數,又得出了位于這個維數上的實數值。可以說是已經完成了。第四步我覺得只不過是搜索引擎一個比較常規的,對于數據的壓縮處理。


便于大家理解,總結一下:

這個專利應該是百度用來對付站群的,具體思路就是,人工找到站群中的一個站,總結這個站的具體特征,并通過這個特征,找出站群中的所有站,拉出去挨個放血...

這個是百度2009年申請下來的專利,但是鑒于目前站群在百度上的肆意橫行,這個專利顯然效果不好。但是,搜索引擎在設計和改進算法的時候,應該不會完全推倒自己先前的算法,新的算法必定是基于舊有算法的。所以大家可以適當看下百度這個專利的思路,鍛煉下自己搜索引擎的思維。


本文來自金戈鐵馬SEO培訓網(www.sdcdrg.com),轉摘請注明出處。

體驗版課程下載

學員成果分享

中华网赚 江苏快三跨度走势图 安徽快3走势 千万时网赚平台是骗子吗 2019美元网赚 山东群英会怎么玩 青海快3 e畅家园网赚 2019免费网赚挂机 网赚兼职项目