当前位置:秋叶网络博客 SEO优化 ◊ 否定网页相似度对SEO收录的影响

否定网页相似度对SEO收录的影响

作者:秋叶 发表时间:2014年12月19日

现在各种seo中又流行了这样一种说法,网页相似度也开始备受关注,只要用搜索引擎搜索“网页相似度”全屏都是关于怎么解决网页相似度以及网页相似度对seo的危害的的文章。

网页相似度分两种,一种是网页内容的相似度,另外一种是网页结构的相似度,网页内容相似度那就免谈了,只要对seo有一定了解的人都会知道,内容相似度高,要么抄袭要么伪原创,抄袭和伪原创虽然不会影响收录,多多少少都会影响排名的,但量大了的话就对seo非常不利。所以我们应尽量避免内容的相似度,这里所谓的内容是正文部分。

另外一种相似度是网页设计结构的相似度,是这篇文章讨论的重点,大家都知道,每个网站都有一个共同框架,比如头部,侧边栏,底部等,这就形成了大家所谓的相似度,特别是这些共同部分多的话,站内页面与页面之间的相似度是非常高的,多者可以达到80%~90%不等。

而很多人认为这些共同部位造成的相似度会严重影响网站页面的收录,这种想法也很容易理解,因为搜索引擎蜘蛛收录一个网页是把整个网页的代码下载下来,而不是只是下载正文内容,搜索引擎没那么高级,可以判别哪些是正文,哪些不是正文。它都是抓取全页代码。如果你的页面之间共同代码多的话就会造成搜索引擎认为这两个页面的内容是相同的,或者类似的,从而舍弃一个页面,降低了收录量。

这想法固然很有道理,我也曾仔细想过,蜘蛛凭什么判别这是一篇文章页,这是一篇有内容的文章页,相对整个页面代码来说,你那文章内容所占比例太小了,几乎很难看得出来这是正文主体内容。或许我们低估了蜘蛛的能力,它是有办法识别一个页面的主题内容和次要结构的。更不会初相影响收录的这种情况。

我的网站的共同部分算是比较多的,每个页面之间相似度达到80%左右,若按照网上一些“seo专家”说的优化相似度要低于50%,那我的网站的内容可以算是100%的页面都是一样的,那蜘蛛一个页面都不会收录,特别是标签页,几乎每个标签页就一篇文章,而且还是显示简短的摘要,那标签页之间的相似度都达到了95%以上。假设蜘蛛真的把全页html代码当成这个页面的内容的话,假设它分辨不出正文的话,它一定不会收录我的网站,特别是标签页。然而秋叶网络博客的收录数量情况还是算理想的,特别是标签页,几乎每个标签页都收录,这就跟前面的猜想理论背道而驰了。所以否定假设,否定网上的网页相似度对收录的影响。

仅凭秋叶网络博客的案例是远远不够的,你也可以看看百度知道,搜搜问问,搜狗问问,这些页面,那种页面就一个问答内容,其它结构都一样,网页相似度达到了90以上,甚至是99.9%,但收录依然非常好。

综上所述,蜘蛛是可以判别一个网页的主体内容的,至于通过什么算法就不得而知,虽然它收录的是整个页面的html,但是它会对这个页面进行分析解剖,把主体内容进行标注,副体内容比如侧边栏,评论等进行隔阂。

如果页面相似度过高的话,它是如何区分这个页面内容有没有更新呢,这个我是大概知道的,从百度蜘蛛对我的网站访问情况可以看出来,蜘蛛几乎80%以上的时间都是爬取页面的feed,也即是订阅页面,大家可以看看http://www.mizuiren.com/feed,feed页面只对内容进行展示,根本没有其它冗余的代码,一眼就可以看出页面的变化情况,主体内容非常明确。

所以网页的设计结构对相似度的干扰是不会影响收录的,但是如果过多无关代码的话就成了冗余代码,会影响网页的打开速度和稀释关键词密度,对排名造成影响。

目录: SEO优化 | 标签: , | 8657次阅读