当前位置：文章写作网 >日记 >日记 >搜索引擎对重复内容的识别及漏洞

搜索引擎对重复内容的识别及漏洞

2008-03-02 20:47 作者：泥人阅读量：4357 推荐0次 | 我要投稿

互联网文章的相互复制，造成了互联网上存在大量的重复内容，这些重复内容，给搜索引擎带来了巨大的压力，搜索引擎在工作时，就需要对重复内容进行识别。那么搜索引擎是根据什么原理来进行重复内容的识别的呢?

有的SEO在实践中提出，为了让搜索引擎收录自己的页面，可以修改标题和部分内容的文字，可以让搜索引擎收录页面;也有SEO认为搜索引擎还将页面的格式脚本也进行比较。

事实上，搜索引擎识别重复内容的原理相当简单，并是不是有些SEO想象的那样拿文章的一段文字和另一篇文章去匹配，要是这样的话，搜索引擎的重复内容识别的效率就太低了。

搜索引擎在识别重复内容之前，已经对页面内容进行了消噪和分词，消噪是指将页面的模板、广告等噪音过滤掉，留下文章的信号。在分词时，已经去掉了页面的脚本代码以及停止字。分词结束后，对每个分词出现的次数进行统计，取出现频率最高的三个或五个关键字，假设为A、B、C三个关键字，分别出现了10次、8次和5次，那么就形成A10B8C5这样一串字符，对此进行如MD5或其它形式的编码后形成一串数字，我们称这串数字为这篇文章的信息指纹，然后那这串信息指纹去数据库中检索，如果已经存在的话，则可以认为这个页面是重复内容。

当然，仅仅采用这样一种方式进行重复内容的识别，存在很大的漏洞，比如有人将核心关键字修改一下，或者人为增加或减少核心关键字来进行欺骗。

因此，搜索引擎还需要对这个算法加以修正，如再检索词频为第六到第九的关键字，甚至分段进行多次识别。

任何算法都只是基于统计意义的，这样的算法也存在很大的漏洞。

漏洞1：将文章的关键字进行了批量替换后，如果仅仅取钱三个关键字的信息指纹进行比对的话，就认为是新内容了，而事实上文章的核心思想是一样的;

漏洞2：将多个文章的标题+摘要列出，形成一个文章列表，如果不对文章进行分段识别的话，也会认为这是新内容;

漏洞3：论坛里的文章，由于大量的跟贴者，相当于对原文章进行了补充，随着跟贴者的增加，这个页面也会被认为是新内容;

漏洞4：对文章的标题进行修改，并对文章加入一些评论或其它的文字，使页面跳出重复页面;

漏洞5：以句子为单位制作SPAM，网上随机抽取句子，制造出段落，并合并成页面。

这些漏洞，往往被一些不良SEOer所利用，用来疯狂制造出一些搜索引擎无法识别，人却可以识别的重复页面。

在重复页面越来越多的今天，搜索引擎对消重的重视程度越来越高，百度自不用说，Google之前推出的类似网页功能，就是消重的一个措施。尽管，google目前对重复页面还没有采取很强硬的对策，但要让重复页面出现在google的排名前列要花的精力自然要比原创页面大的多。

一般而言，文章段落的重排对于重复页面的识别影响不大，但对于核心关键字的改变，则往往使搜索引擎认为是新内容。

参考文献：《搜索引擎原理、实践和应用》卢亮、张博文，2007

其他人在看啥