平常我们一直在说站点内容要原创,要独特,要与众不同,是的,这样没错,但毕竟能坚持原创的站长没几个,大家也都没那么多的墨水去写,所以便有了伪原创。我们说网页相似度要在60%以下才能被搜索引擎认可,才能保证收录快,如果网页内容是原创的那肯定相似度很低,伪原创的话就需要改的要有水平了。尤其Google 对网页相似度限制在60%,如果超过这个标准将导致页面不被收录,或者收录后排名靠后中。
搜索引擎现在的技术可以发现互联网上重复或者相似的内容。搜索引擎不光会把你网站的内容同其他站点的内容进行比较,还会把你网站的内容与你站点内的其他页面进行比较,如果发现是否有重复或者类似的内容,也会给予删除。
在做网站优化的时候。我们不知道搜索引擎对相似页面进行惩罚的标准是多少,而且每个搜索引擎对相似度惩罚的标准也是不一样的,所以,我们应该尽可能的保持网站较低的页面相似度。
我们可以通过工具来检测自己的页面与某个其他页面的网页相似度。
1. 根据网页摘要来比较,如果多个网页摘要的 md5 值一样,证明这些网页有很高的相似性
2. 根据网页出现关键词,按照词频排序,可以取N 个词频高的,如果md5 值一样,证明这些网页有很高的相似性。
若网页相似度太高则可以采取一些措施:
1.使用 JS 优化:
<script language=”javascript”>document.write(“xxxxxx”)</script>
2.放入 Iframe:
(1).将上述内容放入copyright.htm 文件中。
(2).引用该文件。
<iframe src=”copyright.htm” frameborder=”0”></iframe>
3.将内容放入Flash:
Flash 里的内容搜索引擎也识别不了,可以将内容放在Flash 中。
总之,搜索引擎不仅比较你的网页与网络其他已存在的页面,同时还比较你自己站点里的页面的相似度。(大连网站建设)