潮人地東莞seo博客小編下面跟大家分享關(guān)于seo優(yōu)化方法:搜索引擎如何中文分詞(中文分詞常見方法)等seo基礎(chǔ)優(yōu)化方法問題,希望seo專員在做seo優(yōu)化的過程中有所幫助,內(nèi)容僅供參考。
分詞就是具有動(dòng)詞及形容詞二者特征的詞,尤指以-ing或-ed,-d,-t,-en或-n結(jié)尾的英語動(dòng)詞性形容詞,具有形容詞功能,同時(shí)又表現(xiàn)各種動(dòng)詞性特點(diǎn),這是百度對(duì)分詞的簡單介紹,中文分詞也就是針對(duì)中文漢字的分詞,中文分詞(Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。具體的下面村仔SEO博客來與大家分享一番。

什么是中文分詞?目前的分詞手段主要是依靠字典和統(tǒng)計(jì)學(xué)的方法。由于索引是按照關(guān)鍵詞建索引的,索引分詞的效果直接決定了索引詞以及檢索的效果。因此例如將文檔“學(xué)歷史學(xué)好”錯(cuò)分成“學(xué)歷/史學(xué)/好”,索引索引時(shí),只會(huì)對(duì)“學(xué)歷”,“史學(xué)”,“好”這3個(gè)索引詞建立它們與該文檔的關(guān)聯(lián)關(guān)系。這樣查詢“歷史學(xué)”這個(gè)關(guān)鍵詞時(shí),無法檢索出這個(gè)文檔可見分詞質(zhì)量在很大程度上影響了搜索的結(jié)果和效果。
seo博客相關(guān)推薦閱讀:seo優(yōu)化方法之:Nginx敏感信息泄露漏洞(CVE-2017-7529)分析
搜索引擎如何中文分詞?任何文檔都可以看做是一些連續(xù)的詞的集合。然后中文沒有明顯的詞間分隔,這一點(diǎn)和英文不同。當(dāng)
然英文也有難點(diǎn),列如時(shí)態(tài)和詞性的變化等。在中文語法中,詞匯是由兩個(gè)或者多個(gè)漢子組成的。并且句子是連續(xù)書寫的,句子間由標(biāo)點(diǎn)分隔。這就要求在自動(dòng)分析中文文本前,首先將整據(jù)切割成小的詞匯單元,這就是中文分詞。
舉個(gè)例子來說明分詞的難度,對(duì)于“學(xué)歷史學(xué)好”這個(gè)句子,作為人來說,很容易正確切分“學(xué)/歷史學(xué)/好”然而計(jì)算機(jī)要具有這種智慧還是要有很多工作要做的。否則可能會(huì)分成“學(xué)歷/史學(xué)/好”
1. 通過字典實(shí)現(xiàn)分詞
在中文分詞中主要體系了3種難分類型
A. 交集型歧義
“從小學(xué)”這個(gè)詞可能有多種切分方法。
Eg:“從小學(xué)電腦”----> 正確切分為“從小/學(xué)/電腦”
B. 組合型歧義
“中將”這個(gè)詞可能有多種切分方法
Eg:“美軍中將競(jìng)公然說”------->正確切分為“美軍/中將/竟公然說”
“新建地鐵中將禁止商業(yè)攤點(diǎn)”---->正確切分為“新建/地鐵/中/將/禁止/商業(yè)攤點(diǎn)”
C. 混合型歧義
同時(shí)包含上面兩種歧義,則為混seo優(yōu)化推廣方法合型歧義。
對(duì)于“人才能”,可以能切分“人才/能”,“人/才能”和“人/才/能”
利用字典分詞,將字典做成一個(gè)前綴結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu),這種方法稱為“最大正向匹配法”,通常稱為“MM法”。
后綴結(jié)構(gòu)樹分詞,這種方稱為“逆向最大匹配”,也叫”RMM法”。兩種方法原理相同,不同的是分詞的掃描方向。
這種分詞也可以稱為“貪婪算法”,貪婪在于總是認(rèn)為最大匹配的詞匯最優(yōu),或者說最大匹配可以使得切方出的詞匯最少。而較少的索引詞可以降低索引系統(tǒng)的工作量和最終索引文件的大小。
2.通過統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn)分詞
雖然字典分詞解決了分詞的大部分問題,但由于字典收錄詞數(shù)的限制,分詞還需要具有新詞發(fā)現(xiàn)的能力,補(bǔ)充到新發(fā)現(xiàn)的普遍被采用的各種詞匯到字典中,其中包括演藝明姓名和網(wǎng)絡(luò)流行語。甚至股票代碼和火車車次都有可能成為新詞發(fā)現(xiàn)的目標(biāo)。
事實(shí)上,發(fā)現(xiàn)新出現(xiàn)的詞匯過程相當(dāng)復(fù)雜,需要很多基于概率及信息學(xué)方面的知識(shí),在本書中不展開深入研究。基本的原理就是探索那些經(jīng)常一同出現(xiàn)的字。總是相互出現(xiàn)的字很有可能構(gòu)成一個(gè)詞。為此需要分析和探索大量網(wǎng)友內(nèi)容,這種分析與探索過程都是離線完成,最后還要一個(gè)人工確認(rèn)的過程。
中文分詞技術(shù)還在不斷的發(fā)展,還沒有哪一種分詞算法能夠解決一切問題。SEO優(yōu)化做排名也需要考慮分詞的問題,分詞越多可以獲得的搜索就會(huì)越多。但seo優(yōu)化推廣方法有哪些是也不能盲目的做。
以上是潮人地東莞seo博客跟大家分享關(guān)于seo優(yōu)化方法:搜索引擎如何中文分詞(中文分詞常見方法)等問題,希望能對(duì)大家有所幫助,若有不足之處,請(qǐng)諒解,我們大家可以一起討論關(guān)于網(wǎng)站seo優(yōu)化排名的技巧,一起學(xué)習(xí),以上內(nèi)容僅供參考。