歡迎您來到潮人地東莞seo博客,本站專業(yè)免費(fèi)分享多元化的seo網(wǎng)站優(yōu)化技術(shù)干貨以及解答seo各種常見問題的博客網(wǎng)站

熱門關(guān)鍵詞: seo優(yōu)化 seo推廣 seo技術(shù) seo博客 seo網(wǎng)站推廣怎么做 seo怎么做 新手做seo怎么做
當(dāng)前位置:seo博客首頁 > seo常見問題 >

seo優(yōu)化方法:搜索引擎如何中文分詞(中文分詞常見方法)

發(fā)布時(shí)間:2023-04-14 16:00:01 文章出處:潮人地東莞seo博客 作者:東莞seo博客 閱讀數(shù)量:

潮人地東莞seo博客小編下面跟大家分享關(guān)于seo優(yōu)化方法:搜索引擎如何中文分詞(中文分詞常見方法)等seo基礎(chǔ)優(yōu)化方法問題,希望seo專員在做seo優(yōu)化的過程中有所幫助,內(nèi)容僅供參考。

分詞就是具有動(dòng)詞及形容詞二者特征的詞,尤指以-ing或-ed,-d,-t,-en或-n結(jié)尾的英語動(dòng)詞性形容詞,具有形容詞功能,同時(shí)又表現(xiàn)各種動(dòng)詞性特點(diǎn),這是百度對(duì)分詞的簡單介紹,中文分詞也就是針對(duì)中文漢字的分詞,中文分詞(Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。具體的下面村仔SEO博客來與大家分享一番。

seo優(yōu)化方法:搜索引擎如何中文分詞(中文分詞常見方法)

什么是中文分詞?

目前的分詞手段主要是依靠字典和統(tǒng)計(jì)學(xué)的方法。由于索引是按照關(guān)鍵詞建索引的,索引分詞的效果直接決定了索引詞以及檢索的效果。因此例如將文檔“學(xué)歷史學(xué)好”錯(cuò)分成“學(xué)歷/史學(xué)/好”,索引索引時(shí),只會(huì)對(duì)“學(xué)歷”,“史學(xué)”,“好”這3個(gè)索引詞建立它們與該文檔的關(guān)聯(lián)關(guān)系。這樣查詢“歷史學(xué)”這個(gè)關(guān)鍵詞時(shí),無法檢索出這個(gè)文檔可見分詞質(zhì)量在很大程度上影響了搜索的結(jié)果和效果。

seo博客相關(guān)推薦閱讀:seo優(yōu)化方法之:Nginx敏感信息泄露漏洞(CVE-2017-7529)分析

搜索引擎如何中文分詞?

任何文檔都可以看做是一些連續(xù)的詞的集合。然后中文沒有明顯的詞間分隔,這一點(diǎn)和英文不同。當(dāng)

然英文也有難點(diǎn),列如時(shí)態(tài)和詞性的變化等。在中文語法中,詞匯是由兩個(gè)或者多個(gè)漢子組成的。并且句子是連續(xù)書寫的,句子間由標(biāo)點(diǎn)分隔。這就要求在自動(dòng)分析中文文本前,首先將整據(jù)切割成小的詞匯單元,這就是中文分詞。

舉個(gè)例子來說明分詞的難度,對(duì)于“學(xué)歷史學(xué)好”這個(gè)句子,作為人來說,很容易正確切分“學(xué)/歷史學(xué)/好”然而計(jì)算機(jī)要具有這種智慧還是要有很多工作要做的。否則可能會(huì)分成“學(xué)歷/史學(xué)/好”

1. 通過字典實(shí)現(xiàn)分詞

在中文分詞中主要體系了3種難分類型

A. 交集型歧義

“從小學(xué)”這個(gè)詞可能有多種切分方法。

Eg:“從小學(xué)電腦”----> 正確切分為“從小/學(xué)/電腦”

B. 組合型歧義

“中將”這個(gè)詞可能有多種切分方法

Eg:“美軍中將競(jìng)公然說”------->正確切分為“美軍/中將/竟公然說”

“新建地鐵中將禁止商業(yè)攤點(diǎn)”---->正確切分為“新建/地鐵/中/將/禁止/商業(yè)攤點(diǎn)”

C. 混合型歧義

同時(shí)包含上面兩種歧義,則為混seo優(yōu)化推廣方法合型歧義。

對(duì)于“人才能”,可以能切分“人才/能”,“人/才能”和“人/才/能”

利用字典分詞,將字典做成一個(gè)前綴結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu),這種方法稱為“最大正向匹配法”,通常稱為“MM法”。

后綴結(jié)構(gòu)樹分詞,這種方稱為“逆向最大匹配”,也叫”RMM法”。兩種方法原理相同,不同的是分詞的掃描方向。

這種分詞也可以稱為“貪婪算法”,貪婪在于總是認(rèn)為最大匹配的詞匯最優(yōu),或者說最大匹配可以使得切方出的詞匯最少。而較少的索引詞可以降低索引系統(tǒng)的工作量和最終索引文件的大小。

2.通過統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn)分詞

雖然字典分詞解決了分詞的大部分問題,但由于字典收錄詞數(shù)的限制,分詞還需要具有新詞發(fā)現(xiàn)的能力,補(bǔ)充到新發(fā)現(xiàn)的普遍被采用的各種詞匯到字典中,其中包括演藝明姓名和網(wǎng)絡(luò)流行語。甚至股票代碼和火車車次都有可能成為新詞發(fā)現(xiàn)的目標(biāo)。

事實(shí)上,發(fā)現(xiàn)新出現(xiàn)的詞匯過程相當(dāng)復(fù)雜,需要很多基于概率及信息學(xué)方面的知識(shí),在本書中不展開深入研究。基本的原理就是探索那些經(jīng)常一同出現(xiàn)的字。總是相互出現(xiàn)的字很有可能構(gòu)成一個(gè)詞。為此需要分析和探索大量網(wǎng)友內(nèi)容,這種分析與探索過程都是離線完成,最后還要一個(gè)人工確認(rèn)的過程。

中文分詞技術(shù)還在不斷的發(fā)展,還沒有哪一種分詞算法能夠解決一切問題。SEO優(yōu)化做排名也需要考慮分詞的問題,分詞越多可以獲得的搜索就會(huì)越多。但seo優(yōu)化推廣方法有哪些是也不能盲目的做。

以上是潮人地東莞seo博客跟大家分享關(guān)于seo優(yōu)化方法:搜索引擎如何中文分詞(中文分詞常見方法)等問題,希望能對(duì)大家有所幫助,若有不足之處,請(qǐng)諒解,我們大家可以一起討論關(guān)于網(wǎng)站seo優(yōu)化排名的技巧,一起學(xué)習(xí),以上內(nèi)容僅供參考。

閱讀全文
本文標(biāo)題"seo優(yōu)化方法:搜索引擎如何中文分詞(中文分詞常見方法)":http://www.420113.com/cjwt_12767.html
本文版權(quán)歸潮人地seo博客所有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須在文章頁面給出原文連接,否則保留追究法律責(zé)任的權(quán)利。
標(biāo)簽:
相關(guān)推薦
合作伙伴
主站蜘蛛池模板: 无码乱肉视频免费大全合集| 亚洲AV日韩AV永久无码下载| 无码av高潮喷水无码专区线| 精品无码久久久久久尤物| 亚洲午夜无码久久| 毛片亚洲AV无码精品国产午夜| 亚洲AV无码专区国产乱码电影 | 亚洲av无码片在线观看| 久久精品无码中文字幕| 日韩人妻无码一区二区三区久久| 2024你懂的网站无码内射| 办公室丝袜激情无码播放| 中文字幕无码精品亚洲资源网久久| 精品无码人妻一区二区三区不卡| 91精品久久久久久无码 | 无码精品人妻一区二区三区免费看| 无码人妻丰满熟妇片毛片| 久久久久亚洲Av片无码v| 无码乱码观看精品久久| 国产午夜鲁丝片AV无码免费| 无码AV中文一区二区三区| 日日摸夜夜爽无码毛片精选| 粉嫩大学生无套内射无码卡视频 | 无码少妇丰满熟妇一区二区| 亚洲一区精品无码| 超清纯白嫩大学生无码网站| 国产精品JIZZ在线观看无码| 亚洲国产成人精品无码区二本 | 人妻少妇看A偷人无码精品 | 无码av天天av天天爽| 高清无码中文字幕在线观看视频| 无码人妻少妇久久中文字幕蜜桃| 亚洲熟妇无码另类久久久| 2014AV天堂无码一区| 国产成人无码一区二区三区在线| 在线精品自拍无码| 无码人妻精品一区二区三| 无码精品黑人一区二区三区| 无码内射中文字幕岛国片| 久久久久久无码Av成人影院| 久久精品国产亚洲AV无码偷窥 |