阻止搜索引擎抓取 WordPress 网站的最佳方法
已发表: 2023-01-27什么是搜索引擎索引?
搜索引擎索引是搜索引擎(例如 Google、Bing 或 Yahoo)发现网页并将其添加到其数据库的过程。 然后,当用户在搜索引擎中输入查询时,这些数据库将用于为搜索结果提供支持。
当搜索引擎抓取网络时,它会跟踪从一个页面到另一个页面的链接,并对它遇到的每个页面上的内容编制索引。 当它为页面编制索引时,它会处理内容以了解该页面的内容以及它在搜索结果中的排名方式。 这个过程被称为“索引”或“爬行和索引”。
当搜索引擎索引一个页面时,它会考虑各种因素,例如页面上的文本、页面上的图像和视频、HTML 代码的结构以及指向该页面的链接。 它使用此信息来确定页面的相关性和权威性,以及它在搜索结果中的排名方式。
搜索引擎索引是一个持续的过程,因为搜索引擎不断更新他们的数据库以确保他们拥有最新的信息。 这一点很重要,因为网络在不断变化,新页面被创建,旧页面被更新或删除。
提高您的网站在搜索引擎结果中的排名的一个关键因素是通过称为搜索引擎优化 (SEO) 的技术针对搜索引擎优化您的页面。 通过针对搜索引擎优化您的页面,您可以增加您的页面被编入索引并在搜索结果中排名更高的可能性。
为什么要阻止搜索引擎抓取 WordPress 网站?
有人想要阻止搜索引擎抓取 WordPress 网站的原因可能有多种。 以下是一些可能的原因:
- 开发和测试:如果一个网站正在开发或测试中,它可能还没有准备好供公众使用。 在这种情况下,网站所有者可能希望在网站准备好启动之前阻止搜索引擎抓取该网站。
- 隐私和安全:某些网站可能包含不应公开访问的敏感信息。 在这种情况下,站点所有者可能希望阻止搜索引擎抓取站点以保护信息的隐私和安全。
- 流量管理:某些网站的可用资源数量可能有限,例如带宽或服务器容量。 在这种情况下,站点所有者可能希望阻止搜索引擎抓取站点以节省资源和管理流量。
- 重复内容:如果一个网站在多个域上运行,可能会导致重复内容问题,这会对搜索引擎优化产生负面影响。 在这种情况下,站点所有者可能希望阻止搜索引擎抓取重复站点以避免出现此问题。
- 维护模式:在对网站进行维护时,网站所有者可能希望阻止搜索引擎抓取网站以避免向访问者返回 404 错误。
- 暂存站点:如果站点所有者想要在将更改发布到实时站点之前在暂存站点上测试新的更改或更新,他们可能希望阻止搜索引擎抓取暂存站点以避免其实时站点的搜索出现任何混淆或问题引擎排名。
值得注意的是,虽然可以阻止搜索引擎抓取 WordPress 网站,但不建议长期这样做。 搜索引擎可见性对于增加网站流量很重要,通过索引保持更新对于搜索引擎优化至关重要。
阻止搜索引擎抓取 WordPress 网站的方法
有几种方法可用于阻止搜索引擎抓取 WordPress 站点:
- 使用插件:有几个 WordPress 插件,例如 Yoast SEO 或 All in One SEO Pack,它们允许您向页面添加“noindex”元标记。 这告诉搜索引擎不要索引该页面,从而有效地防止它们抓取该网站。
- 使用 robots.txt 文件:robots.txt 文件是一个位于网站根目录的文件,它告诉搜索引擎他们不应抓取网站的哪些页面或部分。 您可以使用 robots.txt 文件来阻止搜索引擎抓取您的整个网站,或仅抓取特定页面或部分。
- 使用 .htaccess 文件:.htaccess 文件是 Apache Web 服务器的配置文件,许多托管服务提供商都使用它。 您可以使用 .htaccess 文件通过添加几行代码来阻止搜索引擎抓取您的站点。
- 密码保护:使用插件或托管服务提供商的内置功能对您的网站进行密码保护也可以防止搜索引擎抓取您的网站,因为它们将无法访问受保护的页面。
- 维护模式:WordPress 具有内置的维护模式功能,可以通过 wp-config.php 文件激活。 这将向访问者显示一个维护页面,并防止搜索引擎在维护期间抓取该站点。
- 暂存站点:许多托管服务提供商都提供暂存功能,允许您创建实时站点的副本以进行测试和开发。 搜索引擎将无法抓取暂存站点,因为它通常被阻止编入索引。
让我们看一下所有方法的更多细节。
#1。 使用插件
使用插件阻止搜索引擎抓取 WordPress 网站是一种流行的方法,因为它相对容易设置并且不需要任何技术知识。 有几个可用的 WordPress 插件允许您将“noindex”元标记添加到您的页面,例如 Yoast SEO 或 All in One SEO Pack。
当您使用插件添加“noindex”元标记时,它会告诉搜索引擎不要为该页面编制索引,从而有效地防止它们抓取该网站。 这意味着该页面不会出现在搜索引擎结果中,搜索引擎也不会花费资源来抓取该页面。
要使用插件阻止搜索引擎抓取 WordPress 网站,您首先需要安装并激活插件。 激活插件后,您通常可以从 WordPress 仪表板访问插件的设置。 从那里,您可以选择要阻止搜索引擎抓取的页面或帖子,并向它们添加“noindex”元标记。
值得注意的是,一些插件还允许您添加“nofollow”元标记,告诉搜索引擎不要跟踪页面上的链接。 如果您想阻止搜索引擎抓取您的站点,但仍希望允许用户访问该页面,这将很有用。
此外,一些插件还可以让您通过将“noindex”元标记添加到相应的部分或页面来阻止搜索引擎抓取您网站的某些部分或整个网站。
请务必记住,使用插件阻止搜索引擎抓取 WordPress 网站是一种临时解决方案,不应长期使用,因为它会影响网站的可见性和流量。 如果您想对您的网站进行更改,您可以改用维护模式或暂存站点。
#2。 使用 robots.txt 文件
使用 robots.txt 文件阻止搜索引擎抓取 WordPress 站点是一种基于网络机器人(也称为“爬虫”或“蜘蛛”)标准的方法。 robots.txt 文件是一个位于网站根目录的文件,它告诉搜索引擎他们不应抓取网站的哪些页面或部分。 通过创建 robots.txt 文件并将其上传到您的网站,您可以防止搜索引擎抓取您网站的某些页面或部分。
要创建 robots.txt 文件,您可以使用简单的文本编辑器,如记事本或 TextEdit。 该文件应以用户代理行开头,该行告诉搜索引擎应阻止哪个爬虫。 例如,要阻止所有搜索引擎,您可以使用“User-agent: *”。
接下来,您可以指定要阻止的网站页面或部分。 这是通过使用“Disallow”指令,后跟要阻止的页面或部分的 URL 来完成的。 例如,要阻止特定页面,您可以使用“Disallow: /page-to-block/”。 要阻止整个目录,您可以使用“Disallow: /directory-to-block/”。
创建 robots.txt 文件后,您需要将其上传到网站的根目录。 根目录的位置取决于您的托管服务提供商,但通常与您的主页位于同一目录。
值得注意的是,虽然 robots.txt 文件可以阻止搜索引擎抓取您的网站,但这并不是万无一失的方法,因为某些抓取工具可能会忽略该文件。 此外,请务必记住,robots.txt 文件不会阻止搜索引擎发现网站的存在。
此外,请记住,如果您使用 robots.txt 阻止整个网站,它将阻止您的网站被编入索引并出现在搜索引擎结果中,因此您的网站将不会从搜索引擎获得任何流量。
另外值得注意的是,您可以通过访问 URL“ https://www.example.com/robots.txt ”并将“example.com”替换为任何网站的域名来查看任何网站的 robots.txt 文件。
#3。 使用 .htaccess 文件
使用 .htaccess 文件阻止搜索引擎抓取 WordPress 网站是一种涉及编辑服务器上的 .htaccess 文件以添加特定规则的方法,这些规则将阻止搜索引擎抓取您网站的某些页面或部分。 .htaccess 文件是一个配置文件,位于您网站的根目录中,控制网站行为的各个方面,包括重定向、安全性和访问控制。
下面是一个示例,说明如何使用 .htaccess 文件来阻止搜索引擎抓取 WordPress 网站上的特定页面:
- 通过 FTP 或虚拟主机控制面板中的文件管理器访问您网站的根目录。
- 查找 .htaccess 文件,如果不存在,您可以创建一个同名的新文件。
- 在记事本或 TextEdit 等文本编辑器中打开 .htaccess 文件。
- 在文件末尾添加以下代码:
<IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|yahoo) [NC] RewriteRule ^page-to-block/$ - [R=404,L] </IfModule>
此代码将阻止所有主要搜索引擎抓取带有“page-to-block”URL 的页面。 您可以更改 URL 以匹配您要阻止的特定页面。
- 保存 .htaccess 文件并将其上传回您的服务器。
值得注意的是,该方法会阻止搜索引擎抓取指定的页面,但不会阻止搜索引擎知道该页面的存在。 此外,此方法基于以下假设:搜索引擎爬虫将遵守 .htaccess 文件中指定的规则,但情况可能并非总是如此。
此外,编辑 .htaccess 文件时一定要小心,因为代码中的错误可能会导致您的网站无法访问。 建议在进行任何更改之前保留原始 .htaccess 文件的备份。
#4。 密码保护
使用密码保护来阻止搜索引擎抓取 WordPress 网站是一种涉及向网站的某些页面或部分添加密码的方法。 这意味着只有知道密码的用户才能访问受保护的页面,而搜索引擎将无法抓取它们。
有几种密码保护 WordPress 网站页面或部分的方法:
- 使用插件:有几个可用的 WordPress 插件允许您使用密码保护页面或网站部分,例如密码保护或密码保护类别。 这些插件允许您为特定页面或帖子或整个类别设置密码。
- 使用 .htaccess 文件:您可以使用 .htaccess 文件对您网站上的特定目录进行密码保护。 此方法更具技术性,因为它需要编辑服务器上的 .htaccess 文件,但如果您想用密码保护整个目录,而不仅仅是单个页面或帖子,它会很有用。
- 使用 cPanel :一些网络托管服务提供商还提供了一种在 cPanel 中使用密码保护目录的方法。 如果您想用密码保护整个目录并且您不熟悉 .htaccess 文件编辑,此方法会很有用。
一旦您用密码保护了网站的页面或部分,搜索引擎将无法抓取它。 但是,值得注意的是,此方法不会阻止搜索引擎知道该页面的存在。 此外,重要的是要记住,用密码保护您网站的页面或部分也会阻止用户访问它,因此它应该只用于对您网站的可见性或流量不重要的页面或部分。
此外,使用密码保护不是一个长期的解决方案,只有在临时需要阻止访问您的站点或站点的特定部分时才应使用此方法,例如在维护或测试期间。
#5。 维护模式
WordPress 有一个内置的维护模式功能,允许您在执行更新、维护或进行更改时暂时使站点离线。 此功能通常用于向访问者显示“即将推出”或“维护模式”页面,同时仍允许您和其他登录用户访问该站点。
要激活 WordPress 中的内置维护模式,您可以按照以下步骤操作:
- 转到 WordPress 仪表板并导航到“设置”菜单。
- 选择“维护模式”选项。
- 选中“启用维护模式”复选框。
- 单击“保存更改”按钮。
启用维护模式后,访问者将看到“即将推出”或“维护模式”页面,而您和其他登录用户将可以完全访问该站点。 这也将阻止搜索引擎在网站处于维护模式时抓取该网站。
您还可以安装一个插件,如“由 SeedProd 提供的即将推出的页面和维护模式”,它允许您自定义即将推出的页面,还允许您阻止搜索引擎在网站处于维护模式时抓取该网站。
#6.暂存站点
登台站点是用于测试和开发目的的实时网站的副本或复制品。 它允许您在不影响实时版本的情况下在您的网站上进行更改和测试新功能。 当您想要更新您的网站或进行重大更改,但不希望访问者或搜索引擎在网站运行时看到该网站时,这将非常有用。
许多托管服务提供商提供暂存功能,让您只需点击几下即可创建实时网站的副本。 这通常涉及在您的主域上创建一个单独的子域或子目录,您可以在其中访问暂存站点。 创建暂存站点的过程可能因托管服务提供商而异,但通常涉及几个简单的步骤,例如:
- 登录到您的托管帐户。
- 转到托管控制面板或 cPanel
- 查找“暂存”或“开发”部分。
- 从您的托管账户的网站列表中选择您的网站。
- 单击“创建暂存站点”按钮。
创建暂存站点后,您将能够使用与实际站点不同的 URL 访问它,例如“staging.yourdomain.com”。 然后,您可以在暂存站点上进行更改和测试新功能,而不会影响实时版本。
请务必注意,搜索引擎将无法抓取暂存站点,因为它通常会被阻止编入索引。 这意味着暂存站点对搜索引擎不可见,也不会影响实时站点的 SEO。 您还可以阻止搜索引擎使用 robots.txt 文件或使用插件来管理对您网站的访问,例如“由 SeedProd 提供的即将推出的页面和维护模式”或“由 Yoast 提供的 WordPress SEO”,以便搜索引擎无法访问正在开发中的站点。
在暂存站点上完成更改和测试后,您可以将更改推送到实时站点。 这可以通过使用您用于创建暂存站点的相同插件或通过手动将更改上传到实时站点来完成。
登台站点是实时站点的复制品,用于在安全环境中测试和开发更改,可用于阻止搜索引擎抓取站点,并允许您在更改上线之前对其进行测试。 许多托管服务提供商将此功能作为内置服务提供。
包起来
总之,有几种方法可以用来阻止搜索引擎抓取 WordPress 网站,每种方法都有自己的优点和局限性。 这些方法包括使用内置维护模式、robots.txt 文件、插件和创建暂存站点。 这些方法中的每一种都可用于实现不同的目标,例如保护敏感信息的隐私和安全、管理流量和资源、避免重复内容问题以及在将新更改或更新发布到实时站点之前对其进行测试。 选择最适合您需要的正确方法并确保您的站点配置正确以防止搜索引擎抓取它是至关重要的。