歡迎您來到潮人地東莞seo博客,本站專業免費分享多元化的seo網站優化技術干貨以及解答seo各種常見問題的博客網站

熱門關鍵詞: seo優化 seo推廣 seo技術 seo博客 seo網站推廣怎么做 seo怎么做 新手做seo怎么做
當前位置:seo博客首頁 > seo網站優化 >

網站優化seo:網絡爬蟲抓取鏈接的五大算法

發布時間:2023-07-28 21:48:01 文章出處:潮人地東莞seo博客 作者:東莞seo博客 閱讀數量:

潮人地東莞seo博客小編下面跟大家分享關于網站優化seo:網絡爬蟲抓取鏈接的五大算法等問題,希望seo專員在做seo優化的過程中有所幫助,內容僅供參考。

網絡爬蟲

抓取鏈接的五大算法

我們在做好網站收錄的同時,就應該要多了解一些提高收錄的方法,也就是指紋與重算法,可以幫我們做好網站收錄,提高排名,在對于排名提升,所以就要去嘗試網站爬蟲通過網頁再去做算法,那么就讓正旭營銷來告訴你網絡爬蟲抓取鏈接的五大算法。

壹、近似重復網頁類型,根據文章內容和網頁布局格式的組合分為4種形式

seo博客相關推薦閱讀:網站優化seo:提高網站速度需要注意的幾點[今日已更新]

網站優化seo:網絡爬蟲抓取鏈接的五大算法

1、兩篇文檔在內容和布局格式上毫無區別,則這種重復稱為完全重復頁面;

2、兩篇文檔內容相同,但布局格式不同,則這種重復稱為內容重復頁面;

3、兩篇文檔有部分重要的內容相同,并且布局格式相同,則這種重復稱為布局重復頁面;

4、兩篇文檔有部分重要內容相同,但布局格式不同,則這種重復稱為部分重復頁面。

貳、重復網頁對搜索引擎的不利影響

正常情況下,非常相似的網頁內容不能或只能給用戶提供少量的新信息,但在對爬蟲進行抓取、索引和用戶搜索會消耗大量的服務器資源。

叁、重復網頁對搜索引擎的好處

如果某個網頁重復性很高,往往是其內容比較比較受歡迎的一種體現,也預示著該網頁相對比較重要。應予以優先收錄。當用戶搜索時,在輸出結果排序時,也應給與較高的權重。

網站優化seo:網絡爬蟲抓取鏈接的五大算法

肆、重復文檔的處理方式

1、刪除;

2、將重復文檔分組。

伍、SimHash文檔指紋計算方法

1從文檔中提取具有權值的特征集合來表示文檔。如:假設特征都是由詞組成的,詞的權值由詞頻TF來確定;

2對每一個詞,通過哈希算法生成N位(通常情況是64位或更多)的二進制數值,以生成8位的二進制值為例。每個詞都對應各自不同的二進制值;

3在N維的向量V中,分別對每維向量進行計算。如果詞相應的比特位的二進制數值為1,則對其特征權值進行加法運算;如果比特位數值為0,則進行減法運算,通過這種方式對向量進行更新;

4當所有的詞都按照上述seo學院排名處理完畢后,如果向量V中第i維是正數,則將N位的指紋中第i位設置為1,否則為0。

一般的,我們想抓取一個網站所有的URL,首先通過起始URL,之后通過網絡爬蟲提取出該網頁中所有的URL鏈接,之后再對提取出來的每個URL進行爬取,提取出各個網頁中的新一輪URL,以此類推。整體的感覺就是自上而下進行抓取網頁中的鏈接,理論上來看,可以抓取整站所有的鏈接。但是問題來了,一個網站中網頁的鏈接是有環路的。

簡單的思路,也是經常用的一個通用思路。我們將已經爬取過的網頁放到一個列表中去,以首頁為例,當首頁被抓取之后,將首頁放到列表中,之后我們抓取子網頁的時候,如果再次碰到了首頁,而首頁已經被抓取過了,此時就可以跳過首頁,繼續往下抓取其他的網頁,而避開了將首頁重復抓取的情況,這樣下來,爬取整站就不會出現一個環路。以這個思路為出發點,將訪問過的URL保存到數據庫中,當獲取下一個URL的時候,就去數據庫中去查詢這個URL是否已經被訪問過了。雖然數據庫有緩存,但是當每個URL都去數據庫中查詢的話,會導致效率下降的很快,所以這種策略用的并不多,但不失為最簡單的一種方式。

將訪問過的URL保存到set中去,通過這樣方式獲取URL的速度很快,基本上不用做查詢。但是這種方法有一個缺點,將URL保存到set中,實際上是保存到內存中,當URL數據量很大的時候(如1億條),會導致內存的壓力越來越大。對于小型的爬蟲來說,這個方法十分可取,但是對于大型的網絡爬蟲,這種方法就難以企及了。

將字符進行md5編碼,md5編碼可以將字符縮減到固定的長度。一般來說,md5編碼的長度約為128bit,約等于16byte。在未縮減之前,假設一個URL占用的內存大小為50個字節,一個字節等于2byte,相當于100byte。由此可見,進行md5編碼之后,節約了大量的內存空間。通過md5的方式可以將任意長度的URL壓縮到同樣長度的md5字符串,而且不會出現重復的情況,達到去重的沁源縣網站seo優化排名效果。通過這種方式很大程度上節約了內存,scrapy框架采取的方式同md5方式有些類似,所以說scrapy在正常情況下,即使URL的數量級達到了上億級別,其占用的內存比起set方式也要少得多。

使用bitmap方法將字符進一步壓縮。這種方式的意思是在計算機中申請8個bit,即8個位,每個位由0或者1表示,這是計算機中最小的單元。8個位組成1個byte,一個位代表一個URL的話,為什么一個位可以確定一個URL呢?因為我們可以將一個URL進行一個哈希函數,然后將其映射到位上面去。舉個栗子,假設我們有8個URL,分別對應8個位,然后通過位上面的0和1的狀態,便可以表明這個URL是否存在,通過這種方法便可以進一步的壓縮內存。但是bitmap方法有一個非常大的缺點,就是它的沖突會非常高,因為同用一個哈希函數,極有可能將兩個不同的URL或者多個不同的URL映射到一個位置上來。實際上這種哈希的方法,它也是set方式的一種實現原理,它將URL進行一種函數計算,然后映射到bit的位置中去,所以這種方式對內存的壓縮是非常大的。簡單的來計算一富錦市網站seo優化排名下,還是以一億條URL來進行計算,相當于一億個bit,通過計算得到其相當于12500000byte,除以1024之后約為12207KB,大概是12MB的空間。在實際過程中內存的占用可能會比12MB大一些,但是即便是如此,相比于前面三種方法,這種方式以及大大的減少了內存占用的空間了。但是與此同時,該方法產生沖突的可能性是非常大的,所以這種方法也不是太適用的。那么有沒有方法將bitmap這種對內存濃重壓縮的方法做進一步優化,讓沖突的可能性降下來呢?答案是有的,就是第五種方式。

bloomfilter,該方法對bitmap進行改進,它可以通過多個哈希函數減少沖突的可能性。通過這種方式,一方面它既可以達到bitmap方法減少內存的作用,另一方面它又同時起到減少沖突的作用。今Bloomfilter適用于大型的網絡爬蟲,尤其是數量級超級大的時候,采用bloomfilter方法可以起到事半功倍的效果,其也經常和分布式爬蟲共同配合,以達到爬取的目的。

以上是潮人地東莞seo博客跟大家分享關于網站優化seo:網絡爬蟲抓取鏈接的五大算法等問題,希望能對大家有所幫助,若有不足之處,請諒解,我們大家可以一起討論關于網站seo優化排名的技巧,一起學習,以上內容僅供參考。

閱讀全文
本文標題"網站優化seo:網絡爬蟲抓取鏈接的五大算法":http://www.420113.com/wzyh_22571.html
本文版權歸潮人地seo博客所有,歡迎轉載,但未經作者同意必須在文章頁面給出原文連接,否則保留追究法律責任的權利。
標簽:
標簽列表
合作伙伴
主站蜘蛛池模板: 精品人妻无码区二区三区| 国产精品亚洲αv天堂无码 | 亚洲精品无码成人片在线观看 | 人妻丰满av无码中文字幕| 亚洲a∨无码男人的天堂| 无码AV动漫精品一区二区免费| 久久精品亚洲中文字幕无码网站 | 亚洲爆乳无码专区| 无码一区二区三区在线观看| 无遮掩无码h成人av动漫| 无码中文字幕日韩专区视频| 国产成人无码AⅤ片在线观看| 无码少妇丰满熟妇一区二区| 无码精品A∨在线观看| 亚洲人成无码久久电影网站| 免费无码精品黄AV电影| 日韩精品无码一区二区三区| 亚洲日韩激情无码一区| 无码少妇一区二区三区芒果| 无码八A片人妻少妇久久| 亚洲∧v久久久无码精品| 韩国19禁无遮挡啪啪无码网站| 日韩美无码五月天| 毛片亚洲AV无码精品国产午夜| 精品欧洲AV无码一区二区男男| 久久老子午夜精品无码| 色情无码WWW视频无码区小黄鸭| 亚洲精品无码MV在线观看| 中文字幕无码AV波多野吉衣| 狠狠躁狠狠爱免费视频无码| 精品亚洲成α人无码成α在线观看 | 无码国产成人午夜电影在线观看| 亚洲中文字幕无码一去台湾| 精品人妻无码区在线视频| 亚洲中文字幕无码av在线| 亚洲色无码专区一区| 久久精品无码中文字幕| 成人h动漫精品一区二区无码| 国产成人无码精品久久久露脸 | 精品一区二区三区无码视频| 97无码免费人妻超级碰碰夜夜|