DeDecms站点防采集的方法

 2012-04-28    513  

这几天在忙着用DEDE建站,前前后后忙碌半个多月,网站终于在前几天正式上线。建站之前经常在论坛里逛,听闻过不少网站被采集的实例;虽然说别人采集你的站是欣赏你,只是毕竟采集还是会耗用资源,若对方的站权重比你的高,采集的文章甚至比你的站的文章还要先收录,这样就会导致网站的原创内容迟迟得不到效果。于是乎我上网查看过不少资料,总结出下面几种切实可行的方法,希望对站长朋友们有所帮助。

DeDeCMS自身有防采集混淆字符串的功能,但这种防采集的办法对SEO很不利,你总不想让搜索蜘蛛看到网页中有不少隐藏文本吧,而且这些文本会影响蜘蛛对信息块主题的判断,影响关键词排名,其实,DeDeCMS没有根本性的防采集的方法,道高一尺魔高一丈啊,只要你的信息通过页面的方式发布出来,总能找到采集的方法;综合网上收集的信息,我采纳了两种办法,只能放置最初级的采集

1)办法一:复制网页正文内容时自动添加版权信息

JavaScript代码

<script language="javascript" type="text/javascript">

<!--

document.body.oncopy = function () {

setTimeout( function () {

var text = clipboardData.getData("text");

if (text) {

texttext = text + "\r\n(这里是你的文章版权信息,去掉括号):"+location.href;

clipboardData.setData("text", text);

}

}, 100 )

}

-->

</script>

将以上代码放置在文章页模板中正文结束后面即可。我测试了下该方法,只针对IE浏览器有效,而Firefox、遨游、Google Chrome均无效。

2)办法二:使页面代码具有唯一性

一般别人采集的时候都是要获取内容开始的代码和结束的代码,而且要唯一性的,所以填的开始代码大多是:<div class="title">。这样,我们在这个class后面加上文章的ID值,改成这样<div class="title" id="{dede:field.id/}">,这里{dede:field.id/}在dedecms中是获取当前文章的ID值,那么生成的每一篇文章的ID值都不一样,这里的开始代码也就都不一样了,这样别人就采集不到了,采一次只能采一篇。

我们制作模板的时候在在body标记附近的<div class="abc">修改成<div class="{dede:field.id/} abc">,注意是空格+{dede:field.id/},这样div的class还是没有变,但产生了<div class="abc 文档ID">,这段代码在每篇文章的内文页均是唯一性的,或者在html标记里插入id={dede:field.id/},比如:<div id={dede:field.id/}>与<body id={dede:field.id/}>,这里{dede:field.id/}在dedecms中是获取当前文章的ID值,这样别人就采集不到了,采一次只能采一篇。当然,别人可以使用过滤规则来去掉,但是假如我在所有的class里插入文档ID,或者插入id=文档ID这样的。那他就只能采集整个页面,然后再过滤,使采集变得更加复杂。

缺点:如果插入{dede:field.id/}不够多的话别人可以用过滤规则过滤掉。但是对于一些站群采集软件来说,这一招足以防止他们采集了!

3)办法三:图片加水印

如果你的文章中有比较多的图片,那么图片加水印是不错的选择;另外,可以后台设置水印出现的位置随机,这样对方采集到图片后便无法遮盖你的水印。当然,水印最好是透明背景且色彩比较浅,这样才不会影响图片质量。此时此刻对方要么继续为你宣传,要么放弃采集图片,要么放弃采集你的网站,这都是对你有利的。

4)办法四:重要内容设定会员访问限制

如果你的网站中确实有比较重要的内容要有所保留,固定的资源才能够吸引固定的用户;这样可以通过设置会员访问限制,让注册会员或者高级会员才能够访问这部分内容。当然,这同样会把搜索引擎拒之门外,不过为保持网站的吸引力,适当的稀有资源还是有必要保留的。如果网站没有让用户留下来的资源,那么用户很容易出走的。

5)办法五:升级DeDeCMS至最新版

DeDeCMS旧版有漏洞,很容易被黑,要么就是嵌入各种广告代码,要么就是被无端增加超级多的隐藏链接,所以,务必要升级到最新版。

当然,防采集的方法还有很多,大家可以去各大网站上学习、模仿。个人觉得,如果是准备通过原创内容来提高权重的新站,防采集还是有必要的;如果网站已经发展得比较大,好比A5,防采集是没多大必要的,毕竟搜索引擎已经认可这里是文章首发地。

上一篇>>测试网站访问速度的5个方法

=========================================

下一篇>>如何将dedecms的data目录迁移到web以外目录