潮人地東莞seo博客小編下面跟大家分享關(guān)于seo入門(mén):搜索引擎是如何判斷內(nèi)容的原創(chuàng)性呢-等問(wèn)題,希望seo專(zhuān)員在做seo優(yōu)化的過(guò)程中有所幫助,內(nèi)容僅供參考。
seo優(yōu)化
中內(nèi)容的原創(chuàng)性是非常重要的,那么對(duì)于搜索引擎是如何判斷內(nèi)容的原創(chuàng)性呢?
首先就是時(shí)間先后上,同樣的內(nèi)容最先被搜索引擎抓取到則為原創(chuàng);其次就是內(nèi)容的稀缺性。很多站點(diǎn)為了獲得原創(chuàng)性又不想花費(fèi)過(guò)高的時(shí)間人力成本就會(huì)選擇為偽原創(chuàng)的方式,但是其實(shí)這種方法意義并不是很大。
一、偽原創(chuàng)的識(shí)別
seo博客相關(guān)推薦閱讀:seo學(xué)習(xí):seo技術(shù)外包接單(seo外包網(wǎng)絡(luò)公司)

偽原創(chuàng)的可行性取決于是否可以被搜索引擎識(shí)別到,這個(gè)就和今天的主題“文本粒度”有密不可分的關(guān)系,先說(shuō)結(jié)論偽原創(chuàng)可以被識(shí)別。偽原創(chuàng)一般的手法就是,內(nèi)容中同義詞替換,順序顛倒,但是這些行為并不會(huì)影響文本粒度。
二、 什么是文本粒度
文本粒度是一個(gè)復(fù)雜的概念,在講粒度之前首先必須明白(Query)分詞技術(shù),人與機(jī)器處理文檔時(shí)最大的區(qū)別,人是具備思維能力的,是通過(guò)對(duì)整個(gè)文檔含義的理解;但是機(jī)器是無(wú)法理解任何的內(nèi)容,只能通過(guò)算法來(lái)分辨文本內(nèi)容。
三、分詞技術(shù)
分詞技術(shù)就是搜索引擎針對(duì)用戶(hù)提交查詢(xún)的關(guān)鍵詞串進(jìn)行的查詢(xún)處理后根據(jù)用戶(hù)的關(guān)鍵詞串用各種匹配方法進(jìn)行分詞的一種技術(shù)。
簡(jiǎn)單的講就是分詞技術(shù)會(huì)把整個(gè)文檔分割成無(wú)數(shù)個(gè)短語(yǔ)。分詞技術(shù)現(xiàn)今非常成熟了,分為3種技術(shù)。

四、字符串匹配的分詞方法
這是種常用的分詞法,百度就是用此類(lèi)分詞。字符串匹配的分詞方法,又分為3種分詞方法。正向最大匹配法、反向最大匹配法、反向最大匹配法、雙向最大匹配法。
五、詞義分詞法
就是一種機(jī)器語(yǔ)音判斷的分詞方法。很簡(jiǎn)單,進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象來(lái)分詞,這種分詞方法,還不成熟,處在測(cè)試階段。
六、統(tǒng)計(jì)分詞法
根據(jù)詞組的統(tǒng)計(jì),就會(huì)發(fā)現(xiàn)兩個(gè)相鄰的字出現(xiàn)的頻率最多,那么這個(gè)詞就很重要。就可以作為用戶(hù)提供seo入門(mén)從哪里開(kāi)始呢字符串中的分隔符,這樣來(lái)分詞。
七、文本粒度的作用
分詞的時(shí)候是需要一定邏輯的,分詞不能亂分,比如分得過(guò)細(xì)會(huì)導(dǎo)致對(duì)于內(nèi)容識(shí)別失去意義。舉例,關(guān)鍵詞“潘某人SEO優(yōu)化”,可以分為“潘某人,seo,優(yōu)化”,這種分詞是比較合理的,但是如果分為“潘某,人,s,e,o,優(yōu)、化”這種顯然就失去了意義。
八、什么是文本的粒度
什么是文本的粒度?,讓我們先看看以下幾組詞匯,可以幫助大家更好的理解本文粒度:
孤獨(dú)、倒霉、粒子、囂張
奶茶、冰球、鞋墊、旱冰鞋
打球、跳繩、炒菜、登山
蘋(píng)果筆記本電腦、IPTV機(jī)頂盒、潘某人SEO優(yōu)化
大頭兒子小頭爸爸、家有兒女、一個(gè)人的精彩
像“孤獨(dú)”,“倒霉”,“粒子”,“囂張”這些詞,雖然有兩個(gè)字組成,但是僅表達(dá)一個(gè)意思,再分割就失去意義了,這些詞的粒度是小的。
而“冰球”,“奶茶”等詞,是由簡(jiǎn)單詞合成的,雖然也可以明確表明一定含義,但是進(jìn)行查分之后還是存在含義的如“奶”和“茶”,“冰”和“球”。這類(lèi)詞,粒度稍微大一些。而“蘋(píng)果筆記本電腦”,“IPTV機(jī)頂盒”這樣的詞,粒度就更大了。
還有一類(lèi)比較特殊的詞,盡管所含字?jǐn)?shù)很多,但其實(shí)只表達(dá)一個(gè)意思,如“大頭兒子小頭爸爸”,“家有兒女”這樣的電影、電視劇的名稱(chēng),粒度是很小的。將此類(lèi)詞繼續(xù)分割在搜索上的意義更低。
所以文本粒度的大小和文本的長(zhǎng)度沒(méi)有決定性關(guān)系,除去一些較長(zhǎng)有特殊含義的短語(yǔ),文本內(nèi)容越長(zhǎng)粒度就越小。
九、偽原創(chuàng)意義不大
所以基于粒度和分詞技術(shù),偽原創(chuàng)內(nèi)容的意義有限,簡(jiǎn)單的內(nèi)容調(diào)換刪減,近似同意替換,基本上無(wú)法改變整片文章的粒度。
就比如微信公眾號(hào)的原創(chuàng)文章,只有當(dāng)你把原創(chuàng)文章修改添加內(nèi)容篇幅足夠大的時(shí)候才可以不被識(shí)別到。
而偽原創(chuàng)原本就是為了降低時(shí)間人力成本,深度偽原創(chuàng)的時(shí)間成本并不低,或者增強(qiáng)機(jī)器偽原創(chuàng)的度,則會(huì)愛(ài)飛seo入門(mén)版本因?yàn)樘鎿Q的內(nèi)容太多導(dǎo)致整體的語(yǔ)義不同,失去了閱讀上的價(jià)值。基于這也是搜索引擎實(shí)現(xiàn)內(nèi)容惡意采集,內(nèi)容拼接,低質(zhì)量?jī)?nèi)容識(shí)別的基本邏輯原理。
以上是潮人地東莞seo博客跟大家分享關(guān)于seo入門(mén):搜索引擎是如何判斷內(nèi)容的原創(chuàng)性呢-等問(wèn)題,希望能對(duì)大保定seo基礎(chǔ)入門(mén)家有所幫助,若有不足之處,請(qǐng)諒解,我們大家可以一起討論關(guān)于網(wǎng)站seo優(yōu)化排名的技巧,一起學(xué)習(xí),以上內(nèi)容僅供參考。