如何防止 WordPress 网站上的内容抓取(5 种方法)

已发表: 2023-07-27


作为网站所有者,投入时间和精力来创建精彩内容,却有人来窃取它,这可能会令人沮丧。 因此,采取措施防止网站上的内容被抓取非常重要。 ‍

例如,您可以更改 RSS 源或显示版权声明。 或者,您可以添加大量内部链接,以阻止机器人和诈骗者窃取您的材料。

内容抓取简介

当用户从您的网站窃取内容并自行重新发布时,就会发生内容抓取。 虽然这通常是使用站点的 RSS 源自动完成的,但也可以使用复制和粘贴手动执行。 可以复制各种内容,包括文本、图像和视频。

通常,窃贼只会在他们的网站上显示您的内容,就好像这是他们自己的原创材料一样。 有时,用户可能会添加返回您网站的链接。 然而,由于他们仍在未经您同意的情况下使用您的内容,这可能同样令人沮丧。

这也是非法的。 内容抓取违反了版权法和知识产权,肇事者可能会被原创者起诉。

抓取者选择窃取内容的原因有很多。 例如,企业或个人可能会尝试通过在其网站上填充高质量信息来在特定领域建立权威。

但是,为了节省时间,他们可能会引用您自己网站上的想法或整个段落。 或者,他们可能会在您的内容中填充广告,以利用您的材料在自己的网站上获利。

或者,联盟营销人员可以使用您的内容通过搜索引擎获得自然流量。 然后,他们可以吸引大量潜在客户来销售或推广他们的联属产品️。

如何防止 WordPress 网站上的内容被抓取

现在您已经对内容抓取有了更多了解,让我们看一下防止 WordPress 内容抓取的五种方法:

  1. 显示版权声明
  2. 更改您的 RSS 提要
  3. 屏蔽抓取工具的IP地址
  4. 保护您的图像
  5. 添加大量内部链接

1. 显示版权声明

版权法保护您的知识产权,包括您的品牌名称、徽标和其他内容。 因此,当抓取者在您的网站上进行内容盗窃时,他们实际上是违法的。

尽管它可能无法阻止专门的抓取工具,但您可以在网站上显示版权声明。 无论如何,这种做法仍然是非法的。 但是,通过这种方式,您可以清楚地表明用户未经许可不能使用您的内容。

将版权声明添加到网站的页脚是个好主意。 或者,您可以添加完整条款和条件的链接:

星巴克网站使用版权声明来帮助防止内容抓取。

页脚是放置版权声明的好地方,因为它将显示在您的所有网页上。

此外,如果您需要提交 DMCA 投诉以升级问题,版权声明会派上用场。 如果你想更进一步,请申请版权登记。 但是,您可能需要法律援助,因为这是一个相当棘手的过程。

正如我们之前提到的,如果抓取工具自动窃取您的内容,它们会依赖您网站的 RSS 提要。 因此,最好对您的 feed 进行一些小的更改,以防止 WordPress 中的内容被抓取。

最简单的更改是在 RSS 源中提供每个帖子的摘要,而不是包含完整内容。 在这种情况下,抓取工具可以复制的只是您的帖子摘录以及日期和作者等元数据。

要在 WordPress 中配置此功能,只需前往“设置” >“从仪表板读取”即可。 滚动直到看到对于摘要中的每个帖子,包括并选择摘录

将 RSS 提要显示为摘录。

然后,单击“保存更改”以更新您的网站。

3.屏蔽爬虫IP地址

防止网站内容被抓取的最简单方法之一就是简单地阻止恶意 IP 地址。 像 Web 应用程序防火墙 (WAF) 这样的安全插件会自动执行此操作。

WAF 的工作原理是监控您网站的所有传入流量。 然后,它将识别并阻止任何它认为存在安全风险的 IP 地址。

更好的是,有很多免费选项可以开始使用,例如SucuriWordfence

但是,如果您是经验丰富的用户,也可以手动阻止抓取工具的 IP 地址。 您可以通过 cPanel 仪表板中的原始访问日志来执行此操作。 或者,您可以通过文件管理器或 FTP 访问.htaccess文件。

找到并打开.htaccess文件后,只需添加以下代码行,将数字替换为您要阻止的 IP 地址:

 Deny from 111.222.333.444.

要阻止多个 IP 地址,请在文件的同一行中输入它们,但用空格分隔。

不过,执行此操作时要小心。 备份您的 . htaccess文件,以防您阻止自己访问自己的网站。

4. 保护您的图像(禁用盗链并添加水印)

虽然可以从您的网站获取文本,但也可以定位图像。 因此,您可以禁用热链接并向图像添加水印,以防止 WordPress 网站上的内容被抓取。

当用户在自己的网站上显示您的图像,但从您的服务器加载图像时,就会发生热链接。 因此,它会增加您的带宽使用量,因为它会利用您的服务器资源来显示图像。

要手动禁用热链接,您需要通过文件管理器或 FTP 访问.htaccess文件。 然后,将以下代码粘贴到该文件中:

 /* Prevent image hotlinking in WordPress */ RewriteCond %HTTP_REFERER !^$ RewriteCond %HTTP_REFERER !^http(s)?://(www.)?yourwebsite.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?google.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?facebook.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?twitter.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?other-websites-go-here.com [NC] RewriteRule .(jpg|jpeg|png|gif)$ - [F]

此代码可防止任何网站(Google、Facebook、Twitter 和您自己的网站除外)使用您的图像。 另外,您可以在最后一行添加或删除文件格式,以确定要应用防盗链的图像。

现在,您还可以为 WordPress 图像添加水印,以防止您网站上的内容被盗。 请注意,这会稍微模糊您的图像,因为水印会干扰图片:

iStock 为图像添加水印以防止内容抓取。

图像水印是一个免费的 WordPress 插件,可以自动为您上传的新图像添加水印。 同时,它使您能够批量为网站上的现有图像添加水印。

添加水印可能会给潜在的窃贼造成障碍。 抓取者可能会在他们的网站上使用您的照片时三思而后行,因为很明显这些图像属于其他人。

5.添加大量内部链接

防止 WordPress 内容抓取的最终策略是向您的帖子添加大量内部链接。 这不会让您的内容难以被抓取,而是确保即使内容被抓取,您仍然可以从该行为中受益。

例如,您帖子中的所有内部链接将为您从爬虫网站获得有价值的反向链接。 由于反向链接是任何高质量 SEO 策略的关键部分,因此这是提高搜索排名的简单方法。

更重要的是,内部链接使您能够将流量从抓取工具的网站转移到您自己的网站。 然后,您可以通过发布高质量的材料、提供快速的加载时间以及实现简单的网站导航来确保这些访问者留在您的网站上。

结论

内容抓取不仅令人沮丧,而且也是非法的,因为它涉及其他人窃取您的知识产权。 幸运的是,有一些技术可以阻止人们复制您的文本、图像和视频。

回顾一下,以下是防止 WordPress 中内容抓取的五种策略:

  1. 显示版权声明。
  2. 更改您的 RSS 源。
  3. 阻止抓取工具的 IP 地址。
  4. 保护您的图像(禁用热链接并添加水印)。
  5. 添加大量内部链接。

您对版权法或内容抓取做法有任何疑问吗? 请在下面的评论部分告诉我们!