? 搜索引擎爬虫的偏好说明 - 金戈铁马SEO培训网
當前位置 : 超級SEO培訓網 / SEO技術

搜索引擎爬蟲的偏好說明

金戈鐵馬SEO培訓網   http://www.sdcdrg.com/   February-11 20:37:54

       大家好,我是爬蟲,很多人都想知道我的喜好,根據我的喜好來做相應的調整提升收錄與排名,實際上,我并不喜歡大家因為我做過度的做優化,我最喜歡的還是一個真正用心去做并能給用戶帶來價值的網站。當然也確實有一些方法可以讓我和網站有更好的交流,以便我更好更快的抓取,從而為互聯網帶來更高的價值。
        我的工作流量是這樣,爬取-索引-排名。


爬取
        我一般是從權重最高的網站開始爬取,大家都知道我是通過鏈接爬取鏈接的,如果你有一個不錯的網站,我希望你能有一些不錯的外鏈,我把外鏈當作是別人對這個網站的投票,投票數越多,投票的網站越權威,我對這個網站的印象分就會越高,但是有一點要提出,我希望外鏈是自然形成的而不是人刻意為之,我最討厭購買鏈接的行為,如果我發現哪個網站有這樣的行為,我就會懲罰它。
        通過外鏈,首先我會看到這個網站的URL,我比較喜歡靜態簡短的URL,簡短的網址更容易讓人記住,靜態的網頁更方便我抓取,我不太喜歡含好多參數或含大寫字母的網站,我會區分大小寫,如果你有2個不同的網址,里面有相同的內容,我會把這2個網址當成不同的網頁,而且我會根據自己的經驗K掉其中一個。
        進入網站之后,我還是遵循老規則,根據鏈接爬取鏈接,我希望網站的層級越淺越好,如果你有重要的內容層級太深,我可能就抓不到了。
        除了內部鏈接外,加載速度,代碼也會影響我的抓取效率。
        還是那句話,我在某網站的停留時間有限,加載速度越快,意味著我在單頁面停留的時間越短,也意味著我可以在網站中抓取到更多的鏈接。
        至于代碼,有幾種代碼我現在還不能很好的爬取,JS,iframe,我現在功能還不是那么完善,希望大家理解。我希望大家可以把冗長的JS代碼,及CSS代碼外調,這樣我可以在更短的時間內抓取到更多的鏈接。
        另外我也給站長們提供了一些快捷通道,比如sitemap,站長們只要把鏈接按照規定好的格式放到sitemap里面,并在robots文件中告訴我,我就可以去快速的抓取了。
        作為爬蟲,每天要爬那么多鏈接,我真的很累,為了加快工作效率,我會做一些標記,比如,我發現某個網站總是在9點更新,其他時間不更新,那么我就會做一個標記,以后每天9點來抓取;如果有的網站總是不更新,我會標記304,告訴自己這個網站和上次沒有變化,如果很長時間都是304,我就會減少來這個網站的時間,直到不來;如果有的網站不穩定,我會標記500,當然我也會偶爾來看看,如果幾次之后一直是這樣,我就發誓以后再也不來了。再比如,有的網站錯誤鏈接比較多,返回404,我就會從我的索引庫中刪除,這樣以后我再碰到這個鏈接就不抓了,以節省我的時間。對錯誤頁面特別多的站長,我也想補充一句,一定要返回404,并且制作死鏈接sitemap,這樣可以把機會留給更重要的頁面。其實,我會在網站日志中留下我的抓取痕跡,我非常希望人們可以通過網站日志了解我的抓取行為是否正確,并相應的調整加快我的工作效率,很可惜不是所有的站長都了解這一點。


索引
        抓取之后我要好好的審核一下這些頁面,如果質量合格,我就會把這些鏈接放到索引中,用戶就可以通過查詢關鍵詞來找到這個網頁。這也就是人們常說的收錄。
        一個頁面是否被收錄,和這個頁面的質量和權重有很大關系。
        一般說來,我會先判斷這個頁面的原創度,如果頁面和我的索引庫中的某篇文章相似度很高,一般說來,只要有38字是完全雷同,我就判斷其為重復頁面,我就很可能不收錄了。
        考慮到現在的偽原創工具很多,我還會再判斷一下頁面的可讀性,目前我還不夠智能,但是我可以根據用戶的行為,比如點擊率,用戶評論,頁面跳出率等初步的判斷一下頁面質量。
        當然也會有例外,如果這個網頁權重很高,我也會降低對頁面質量的要求。這里要說明一下,每個頁面也是有權重的,這個權重和首頁的權重,頁面導入鏈接,頁面導出鏈接都有很大的關系。要知道,某個網頁的導入鏈接也就是投票越多,網頁的權重也會越多,但是,如果頁面又導出了大量的鏈接,剩下的權重也會越少。


排名
        總的說來,相關性和頁面權重是我判斷排名的最重要的因素。
        那么我如何判斷頁面的相關性呢,首先是這個頁面的錨文本,也就是別人給這個網頁加的鏈接文字。如果說鏈接是投票,那么鏈接上的文字就是投票者對你的評價。相比我自己的判斷,我更相信別人對你的評價,當然,隨著我的功能的不斷完善,我也會越來越相信自己的判斷能力。
        我自己是這樣判斷頁面相關性的,Title,Description,這2個也會出現在搜索結果中。說明一點,Keywords我現在不太關注了。
        我一般認為H1標簽是頁面最重要的關鍵詞,所以推薦站長們在頁面最重要的關鍵詞加H1標簽,強調,是最重要的哦,只要一個就好了,多了還是影響我的判斷。
        頁面關鍵詞密度是我判斷頁面相關性的標準之一,這一點早已不是秘密,也正是因為這個,很多站長進行關鍵詞堆砌或者隱藏關鍵詞,其實,我真的很不喜歡這樣欺騙或者投機取巧的行為,一般說來,一篇800字的文章包含關鍵詞4-5個就足矣了。
        頁面權重之前提到了,就不多說了,但不說不代表不重要。大家明白我的初衷就好,首先搜索結果要有相關性滿足用戶的要求,其次,我要把更好更權威的頁面放在前面。
我是爬蟲,你了解我了嗎?歡迎站長們與我交流。


本文來自金戈鐵馬SEO培訓網(www.sdcdrg.com),轉摘請注明出處。

體驗版課程下載

學員成果分享

创世纪网赚是真的吗 福缘网赚论坛 吉林快3 博乐彩票 纤亿彩票注册 2019网赚最好的项目 网赚平台有哪些好的兼职赚钱项目 六福彩票 网赚qq群 北京快3