潮人地東莞seo博客小編下面跟大家分享關于seo優化方法:搜索引擎如何中文分詞(中文分詞常見方法)等seo基礎優化方法問題,希望seo專員在做seo優化的過程中有所幫助,內容僅供參考。
分詞就是具有動詞及形容詞二者特征的詞,尤指以-ing或-ed,-d,-t,-en或-n結尾的英語動詞性形容詞,具有形容詞功能,同時又表現各種動詞性特點,這是百度對分詞的簡單介紹,中文分詞也就是針對中文漢字的分詞,中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個個單獨的詞。具體的下面村仔SEO博客來與大家分享一番。

什么是中文分詞?目前的分詞手段主要是依靠字典和統計學的方法。由于索引是按照關鍵詞建索引的,索引分詞的效果直接決定了索引詞以及檢索的效果。因此例如將文檔“學歷史學好”錯分成“學歷/史學/好”,索引索引時,只會對“學歷”,“史學”,“好”這3個索引詞建立它們與該文檔的關聯關系。這樣查詢“歷史學”這個關鍵詞時,無法檢索出這個文檔可見分詞質量在很大程度上影響了搜索的結果和效果。
seo博客相關推薦閱讀:seo優化方法之:網站存在安全風險的應對方案解析
搜索引擎如何中文分詞?任何文檔都可以看做是一些連續的詞的集合。然后中文沒有明顯的詞間分隔,這一點和英文不同。當
然英文也有難點,列如時態和詞性的變化等。在中文語法中,詞匯是由兩個或者多個漢子組成的。并且句子是連續書寫的,句子間由標點分隔。這就要求在自動分析中文文本前,首先將整據切割成小的詞匯單元,這就是中文分詞。
舉個例子來說明分詞的難度,對于“學歷史學好”這個句子,作為人來說,很容易正確切分“學/歷史學/好”然而計算機要具有這種智慧還是要有很多工作要做的。否則可能會分成“學歷/史學/好”
1. 通過字典實現分詞
在中文分詞中主要體系了3種難分類型
A. 交集型歧義
“從小學”這個詞可能有多種切分方法。
Eg:“從小學電腦”----> 正確切分為“從小/學/電腦”
B. 組合型歧義
“中將”這個詞可能有多種切分方法
Eg:“美軍中將競公然說”------->正確切分為“美軍/中將/竟公然說”
“新建地鐵中將禁止商業攤點”---->正確切分為“新建/地鐵/中/將/禁止/商業攤點”
C. 混合型歧義
同時包含上面兩種歧義,則為混seo優化推廣方法合型歧義。
對于“人才能”,可以能切分“人才/能”,“人/才能”和“人/才/能”
利用字典分詞,將字典做成一個前綴結構的數據結構,這種方法稱為“最大正向匹配法”,通常稱為“MM法”。
后綴結構樹分詞,這種方稱為“逆向最大匹配”,也叫”RMM法”。兩種方法原理相同,不同的是分詞的掃描方向。
這種分詞也可以稱為“貪婪算法”,貪婪在于總是認為最大匹配的詞匯最優,或者說最大匹配可以使得切方出的詞匯最少。而較少的索引詞可以降低索引系統的工作量和最終索引文件的大小。
2.通過統計學方法實現分詞
雖然字典分詞解決了分詞的大部分問題,但由于字典收錄詞數的限制,分詞還需要具有新詞發現的能力,補充到新發現的普遍被采用的各種詞匯到字典中,其中包括演藝明姓名和網絡流行語。甚至股票代碼和火車車次都有可能成為新詞發現的目標。
事實上,發現新出現的詞匯過程相當復雜,需要很多基于概率及信息學方面的知識,在本書中不展開深入研究。基本的原理就是探索那些經常一同出現的字。總是相互出現的字很有可能構成一個詞。為此需要分析和探索大量網友內容,這種分析與探索過程都是離線完成,最后還要一個人工確認的過程。
中文分詞技術還在不斷的發展,還沒有哪一種分詞算法能夠解決一切問題。SEO優化做排名也需要考慮分詞的問題,分詞越多可以獲得的搜索就會越多。但seo優化推廣方法有哪些是也不能盲目的做。
以上是潮人地東莞seo博客跟大家分享關于seo優化方法:搜索引擎如何中文分詞(中文分詞常見方法)等問題,希望能對大家有所幫助,若有不足之處,請諒解,我們大家可以一起討論關于網站seo優化排名的技巧,一起學習,以上內容僅供參考。