潮人地東莞seo博客小編下面跟大家分享關(guān)于seo優(yōu)化博客:怎樣是搜索引擎中文分詞技術(shù)原理等問題,希望seo專員在做seo優(yōu)化的過程中有所幫助,內(nèi)容僅供參考。
很多從事seo優(yōu)化工作的朋友對(duì)搜索引擎分詞比較感興趣,因?yàn)槿绻昧怂阉饕嬷形姆衷~的原理,掌握了一定的搜索引擎分詞技術(shù)的話,對(duì)于網(wǎng)站seo優(yōu)化的長尾關(guān)鍵詞布局是非常有幫助的,今天潮人地東莞seo博客就來和朋友們聊聊什么是搜索引擎中文分詞技術(shù)。

搜索引擎分詞技術(shù)是中文搜索引擎特有的一種關(guān)鍵詞技術(shù)支持,中文關(guān)鍵詞和英文關(guān)鍵詞的差別在于英文單詞與單詞之間是由空格分隔的,而中文卻不存在空格鍵的問題,因此搜索引擎必須將一個(gè)完整的句子分割成小單元的關(guān)鍵詞和長尾關(guān)鍵詞,比如潮人地東莞seo博客這個(gè)詞,可以分割成小編、小編seo、seo博客等,因此分詞技術(shù)的效率會(huì)直接影響到整個(gè)搜索引擎系統(tǒng)的搜索結(jié)果展示的效率。
seo博客相關(guān)推薦閱讀:seo新手:seo網(wǎng)站優(yōu)化沒有效果的4個(gè)原因
一般來說分詞的方法有兩種形式,一種是基于字符串匹配的分詞方法,另一種是基于統(tǒng)計(jì)的分詞方法。
1、基于字符串匹配的分詞方法是按照匹配方向不同,分為正向匹配、逆向匹配和最少切詞,同時(shí)還可以將這三種切詞方法綜合起來使用,也就是說可以通過正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配來進(jìn)行分詞。
A、正向最大匹配的分詞原理:假設(shè)字典中最長的詞語字?jǐn)?shù)為M個(gè),先根據(jù)漢語的標(biāo)點(diǎn)符號(hào)及特征詞把漢語句子切分成若干短語,然后去取短語的前M個(gè)字,在字庫里面查找是否存在這個(gè)詞語,如果存在的話,短語就去掉這個(gè)詞;如果不存在的話,就去掉這M個(gè)字的最后一個(gè)字,接著檢測剩下的詞是否是單字,若是則輸出這個(gè)字并將這個(gè)字從短語中去掉,若不是則繼續(xù)判斷字庫中是否存在這個(gè)seo 技術(shù)詞。就這樣反復(fù)循環(huán)檢測,直到輸出一個(gè)詞,然后繼續(xù)取剩余短語的前M個(gè)字反復(fù)循環(huán),這樣就可以將一個(gè)短語分成詞語的組合了。
這樣說可能很多朋友不是很好理解,那么就用一個(gè)例子來說明一下吧,以“我是一個(gè)好人為例子”,假設(shè)字典中最長詞語字?jǐn)?shù)為3個(gè),正向最大匹配順序?yàn)椋篴、取出短語“我是一”,檢查“我是一”是否在字典中存在或是一個(gè)單字,處理方式是去掉最后面的“一”字;b、檢查短語“我是”是否在字典中存在或者是一個(gè)單字,處理方式是去掉“是”字;c、檢查“我”字是否在字典中存在或是一個(gè)單字,因?yàn)椤拔摇笔且粋€(gè)單字,所以將“我”字輸出;d、然后在繼續(xù)取詞“是一個(gè)”,檢查“是一個(gè)”是否在字典中存在或是一個(gè)單字,處理方法是去掉最后面的“個(gè)”字;通過這樣的反復(fù)檢查最后輸出結(jié)果為我、是、一個(gè)、好人。
B、逆向最大匹配的分詞原理:是以句子結(jié)尾處開始進(jìn)行分詞的方法,逆向最大匹配分詞技術(shù)最大的一個(gè)作用是用來消歧。比如“某培訓(xùn)線下聚會(huì)在某城市舉行”正向最大匹配的分詞結(jié)果肯定是某、培訓(xùn)、線、下、聚會(huì)、在、某城市、舉行,這樣的分詞結(jié)果肯定是非常不如人意的。采用逆向最大匹配的分詞技術(shù)卻可以更大程度的滿足句子的本意,例如設(shè)定一個(gè)分詞節(jié)點(diǎn)大小為6,那么“在某城市舉行”中很顯然“舉行”是會(huì)被分詞出來的,最后剩下的是“聚會(huì)在某城市”。
正向最小匹配和逆向最小匹配一般來說是很少用到的,實(shí)際上使用中逆向匹配的精準(zhǔn)度要高于正向匹配度。
2黑帽seo技術(shù)易下拉教程、基于統(tǒng)計(jì)分詞技術(shù)的原理
直接調(diào)用分詞詞典中的若干詞進(jìn)行匹配,同時(shí)也使用統(tǒng)計(jì)技術(shù)來識(shí)別一些新的詞語,將所有的統(tǒng)計(jì)結(jié)果匹配起來發(fā)揮切詞的最高效率。
分詞詞典是搜索引擎判斷詞語的依據(jù),基本上收錄了漢語詞典當(dāng)中所有的詞語。如我們?cè)谒阉饕娈?dāng)中輸入“我要減肥了”,“減肥”兩個(gè)字就會(huì)被判定為一個(gè)詞語。現(xiàn)在網(wǎng)絡(luò)上經(jīng)常會(huì)出現(xiàn)新造的網(wǎng)絡(luò)流行詞語,比如“神馬”、“犀利哥”、“浮云”等等,這樣的詞肯定也會(huì)被搜索引擎慢慢收錄,并加入到分詞詞典當(dāng)中,這也是分詞詞典為了滿足用戶需求而不斷的進(jìn)行更新的比如結(jié)果。
以上是潮人鞏義seo優(yōu)化技術(shù)地東莞seo博客跟大家分享關(guān)于seo優(yōu)化博客:怎樣是搜索引擎中文分詞技術(shù)原理等問題,希望能對(duì)大家有所幫助,若有不足之處,請(qǐng)諒解,我們大家可以一起討論關(guān)于網(wǎng)站seo優(yōu)化排名的技巧,一起學(xué)習(xí),以上內(nèi)容僅供參考。