阻止GoogleBing爬虫访问网站的方法与注意事项

Google每天至少启动一次Googlebot抓取工具来抓取网页并将其编入索引。通常情况下，抓取行为会基于您在Google Search Console中提交的XML Sitemap进行。然而，与普通内容网站相比，新闻网站的抓取频率往往更高且速度更快。同样，Bing也依赖Bingbot爬虫来抓取页面。尽管网站管理员普遍希望Google和Bing能够迅速索引其页面，但在某些特定场景下，您可能需要阻止这些爬虫访问整个网站或网站上的特定页面。本文将深入探讨如何屏蔽Googlebot和Bingbot，分析屏蔽爬虫后可能产生的后果，并揭示导致爬取问题的常见原因。

### 拦截Googlebot和Bingbot的有效方法

根据您的需求，有多种方法可以阻止Googlebot和Bingbot访问您的网页。以下是几种常见的技术手段：

#### 1. 使用Robots.txt进行拦截

Robots.txt文件是最常用且流行的阻止爬虫方法。通过在文件中添加特定指令，您可以有效地拦截Google和Bing的访问。例如，以下代码片段将阻止Googlebot和Bingbot访问您网站上的特定页面：

“`
User-agent: Googlebot
Disallow: /your-page-url

User-agent: Bingbot
Disallow: /your-page-url
“`

尽管Google和Bing会遵循Robots.txt文件，但需要注意的是，如果被阻止的页面是通过外部链接（无论是来自您的网站还是不受控的外部网站）引用的，那么这种阻止措施可能无效。

#### 2. 使用.htaccess来阻止

虽然不如Robots.txt常见，但某些用户更倾向于使用.htaccess文件来阻止爬虫。这种方法类似于通过拦截Googlebot和Bingbot的IP地址来阻止对特定页面或目录的访问。以下是一个示例代码：

“`
RewriteEngine On
RewriteCond %{REQUEST_URI} ^/your-page-url
RewriteRule ^(.*)$ – [F,L]
“`

#### 3. 拦截Googlebot和Bingbot IP地址

上述方法的一个主要限制是您需要具备服务器访问权限才能编辑相关文件。此外，在编辑Robots.txt和.htaccess文件时也可能出现错误。另一种有效的解决方案是直接阻止Googlebot和Bingbot的IP地址。Google和Bing会定期更新其爬虫的IP地址，您可以从这些更新中提取IP范围并用于阻止目的。这些IP地址通常以JSON格式提供，您需要从中提取IP范围并加以利用。需要注意的是，这些IP地址仅适用于Googlebot和Bingbot的搜索爬虫，而不适用于其他用途，如AdSense爬虫或Microsoft广告爬虫。

#### 使用主机面板进行IP拦截

如果您拥有服务器访问权限，还可以利用主机面板中提供的IP Blocker工具。例如，HostGator在其cPanel的“SECURITY”部分下提供了一个名为IP Deny Manager的“IP Blocker”应用程序。类似工具在大多数cPanel托管公司中都有提供，如Bluehost。您可以通过以下方式之一提供Googlebot的IP地址：

– 使用JSON文件中给出的CIDR格式，如 `66.249.64.0/27`
– 提供隐含的IP范围，如 `66.249.66.0-255`
– 使用通配符范围，如 `66.249.*.*`
– 直接输入主机名 `googlebot.com`，因为大多数Googlebot用户代理都来自此主机名

在cPanel中拦截Googlebot和Bingbot通常只需要拦截一个或几个IP地址即可。然而，您也可以使用通配符或主机名来阻止整个访问。

#### 使用WordPress插件

如果您使用的是WordPress等内容管理系统，可以通过安装安全插件来拦截来自站点管理员面板的机器人和IP地址，而无需直接访问托管帐户。例如，SiteGround Security插件允许您监控网站的实时流量。您可以根据用户代理名称找到Googlebot和Bingbot的IP地址，并在管理面板中轻松阻止它们。此外，还有许多蜘蛛统计分析插件，通过其蜘蛛拦截功能可以快速对Google和Bing蜘蛛进行拦截。这些插件通常还具备网站搜索引擎蜘蛛爬取数据统计、页面爬取日志查看、蜘蛛访问路径等功能，是WordPress站长必不可少的SEO辅助工具。

#### 4. 隐藏授权页面

对于需要通过设置权限来限制搜索引擎访问的页面，隐藏授权页面是一种有效方法。例如，银行和会员网站通常将个性化内容隐藏在登录授权后面，以确保搜索引擎无法访问这些内容。基于内容的机密性，您可能需要应用防火墙、阻止用户配置文件等措施。强烈建议聘请专业开发人员，并在所需目录级别正确设置限制，以防止Google抓取禁止部分。

### 控制爬行速率或爬行频率

如果您发现Googlebot和Bingbot对服务器资源的消耗较高，可以通过控制抓取速度或抓取频率来优化性能。抓取速度指的是Googlebot或Bingbot每秒从您的网站获取内容的请求数量。对于高流量网站，控制爬虫程序的抓取速度对于调整服务器资源至关重要。您可以在Bing网站管理员工具中更改Bingbot的抓取速度，具体操作方法请参考相关文档。然而，Google会自动使用优化的抓取速度从您的网站抓取内容。您可以在Google Search Console帐户中查看当前的抓取频率。如果您对当前的抓取频率不满意，可以向Google提出特殊要求。新的抓取速度将在接下来的90天内有效，并在该期限后重置为优化设置。更多关于控制Googlebot抓取速度的信息，请参考相关指南。

### 拦截Googlebot和Bingbot时会发生什么？

当您阻止页面或站点URL时，您将在Google Search Console和Bing网站管理员工具中看到不同类型的错误。以下是在Google Search Console帐户中可能遇到的一些常见错误：

– URL被Robots.txt阻止
– 带有类似“提交的URL似乎是一个软404”的404错误消息
– 部分抓取或页面没有内容错误

如果管理您网站的人员错误地阻止了页面，您可以检查Google Search Console“覆盖范围”部分下的错误并修复它们。然而，如果您使用IP拦截或.htaccess方法，可能不会立即发现问题。简单的方法是使用Google Search Console中的URL检查工具、Google PageSpeed Insights或移动友好的测试工具来测试页面是否可以被抓取。当Googlebot被阻止访问页面时，您将看到错误和呈现的空白页面。

### 总结

您可以通过上述方法之一来拦截Googlebot和Bingbot的抓取行为。然而，在阻止您网站的特定页面或部分时，务必避免错误操作。特别是，拦截IP地址是最危险的操作，它可能导致您的网页从Google搜索中完全删除。您可能需要重新提交页面并等待重新索引，这可能会导致流量下降，进而影响收入。因此，如果您不确定如何拦截Googlebot和Bingbot，建议与您的托管公司联系。或者，聘请专业开发人员进行自定义开发工作，例如将机密内容隐藏在授权后面。

文章网址：https://www.wpbull.com/jiqiao/15300.html

阻止GoogleBing爬虫访问网站的方法与注意事项

相关推荐