很多网站的内容都是靠采集与伪原创维持内容的更新,谷歌又不是吃素的。要知道,相对于百度,谷歌对伪原创的内容更会判别。上海谷歌授权代理跟您说说这谷歌是如何判别伪原创与原创的。
1.代码噪音
一般,谷歌会区分代码布局的和噪音比例,且可以对典型代码进行忽略,从而判别哪些是导航,哪些是正文。这里有个漏洞,如果是对整个页面进行降噪,就能方便搜索引擎进行正文确认。但如果对正文区进行适当地加躁,就会增加搜索引擎识别重复性的难度。
2.相似度
熟悉搜索引擎算法的seoer们都应该了解“相似度”这一词,相似度是用得***多的一种去重算法。还有一种算法用得也比较多——TF/IDF算法。如果一篇文章的某个词或短语出现次数比较多而很少在其他文章中出现,那么这个词或短语就能很容易被区分出来。TF词频指的就是文章中某个既定的词语的出现频率。如果包含相关词或短语的文档越少,IDF就越大,则说明词条具有很好的类别区分能力。
一篇文章会根据法则进行计算,形成一个多维向量,即代表着这篇文章的内容特征向量。当两篇文章的向量趋于一致,则说明这两篇文章有极高的相似度。
3.数据指纹
***步检测完,搜索引擎就会把相似度高的文章收集起来,然后就会用到数据指纹去判别事是否重复。把文章的标点符号提出后进行对比,这也算是数字指纹众多算法中的一个。不可能有两篇不同的文章,标点符号是完全相同的。
而很多伪原创工具只会替换关键词,而标点符号是没有任何变化的。即使文章的段落重新编排了一下,标点符号出现了差异,但向量与词频问题依然保留着。
通过以上的介绍,您还会依靠伪原创进行文章内容的填充吗?其实,原创的价值远高于伪原创,而且以后的算法会越来越智能化,只有遵从原创,才是网站运营的长久之计。