当前位置:文章写作网 >日记 >日记 >搜索引擎对重复内容的识别及漏洞

搜索引擎对重复内容的识别及漏洞

2008-03-02 20:47 作者:泥人 阅读量:4352 推荐0次 | 我要投稿

互联网文章的相互复制,造成了互联网上存在大量的重复内容,这些重复内容,给搜索引擎带来了巨大的压力,搜索引擎在工作时,就需要对重复内容进行识别。那么搜索引擎是根据什么原理来进行重复内容的识别的呢?

有的SEO在实践中提出,为了让搜索引擎收录自己的页面,可以修改标题和部分内容的文字,可以让搜索引擎收录页面;也有SEO认为搜索引擎还将页面的格式脚本也进行比较。

事实上,搜索引擎识别重复内容的原理相当简单,并是不是有些SEO想象的那样拿文章的一段文字和另一篇文章去匹配,要是这样的话,搜索引擎的重复内容识别的效率就太低了。

搜索引擎在识别重复内容之前,已经对页面内容进行了消噪和分词,消噪是指将页面的模板、广告等噪音过滤掉,留下文章的信号。在分词时,已经去掉了页面的脚本代码以及停止字。分词结束后,对每个分词出现的次数进行统计,取出现频率最高的三个或五个关键字,假设为A、B、C三个关键字,分别出现了10次、8次和5次,那么就形成A10B8C5这样一串字符,对此进行如MD5或其它形式的编码后形成一串数字,我们称这串数字为这篇文章的信息指纹,然后那这串信息指纹去数据库中检索,如果已经存在的话,则可以认为这个页面是重复内容。

当然,仅仅采用这样一种方式进行重复内容的识别,存在很大的漏洞,比如有人将核心关键字修改一下,或者人为增加或减少核心关键字来进行欺骗。

因此,搜索引擎还需要对这个算法加以修正,如再检索词频为第六到第九的关键字,甚至分段进行多次识别。

任何算法都只是基于统计意义的,这样的算法也存在很大的漏洞。

漏洞1:将文章的关键字进行了批量替换后,如果仅仅取钱三个关键字的信息指纹进行比对的话,就认为是新内容了,而事实上文章的核心思想是一样的;

漏洞2:将多个文章的标题+摘要列出,形成一个文章列表,如果不对文章进行分段识别的话,也会认为这是新内容;

漏洞3:论坛里的文章,由于大量的跟贴者,相当于对原文章进行了补充,随着跟贴者的增加,这个页面也会被认为是新内容;

漏洞4:对文章的标题进行修改,并对文章加入一些评论或其它的文字,使页面跳出重复页面;

漏洞5:以句子为单位制作SPAM,网上随机抽取句子,制造出段落,并合并成页面。

这些漏洞,往往被一些不良SEOer所利用,用来疯狂制造出一些搜索引擎无法识别,人却可以识别的重复页面。

在重复页面越来越多的今天,搜索引擎对消重的重视程度越来越高,百度自不用说,Google之前推出的类似网页功能,就是消重的一个措施。尽管,google目前对重复页面还没有采取很强硬的对策,但要让重复页面出现在google的排名前列要花的精力自然要比原创页面大的多。

一般而言,文章段落的重排对于重复页面的识别影响不大,但对于核心关键字的改变,则往往使搜索引擎认为是新内容。

参考文献:《搜索引擎原理、实践和应用》卢亮、张博文,2007

其他人在看啥

    《搜索引擎对重复内容的识别及漏洞》的评论 (共 0 条)

    • Guest:1.LV衣服批发、CHANEL包批发、CHLOE包包批发、GUCCI皮带批发、FENDI包批发、巴黎机车包批发外贸超A包。Ray.ban雷朋 Dior D