掌握网络爬虫提升网站流量排名的实用指南
对于大多数网站运营人员或站长而言,持续更新内容是保持网站新鲜度并提升SEO排名的关键。然而,当网站拥有数百甚至数千个页面时,手动向搜索引擎推送更新便成为一大挑战。频繁的内容更新如何确保对SEO排名产生积极影响?这时,网络爬虫的作用便凸显出来。网络爬虫会抓取网站地图,获取最新更新,并将内容索引至搜索引擎。本文将全面概述网络爬虫列表,涵盖所有你需要了解的关键信息。在深入探讨之前,让我们先定义网络爬虫及其功能。
什么是网络爬虫?
网络爬虫,又称网络蜘蛛,是一种自动浏览万维网的网络机器人。其主要目的是编纂网络索引,帮助搜索引擎更新自身网站内容或对其他网站的索引。网络爬虫会保存访问的页面,供搜索引擎后续生成索引供用户搜索。爬虫访问网站会消耗系统资源,因此不少网络系统并不默认允许爬虫工作。——维基百科
Web爬网程序、网络蜘蛛或搜索引擎机器人会从整个互联网下载内容并建立索引。这些机器人的目标是学习Web上几乎每个网页的内容,以便在需要时检索相关信息。它们被称为“Web爬网程序”,因为“爬取”是一个技术术语,形容通过软件程序自动访问网站或获取数据。这些机器人几乎总是由搜索引擎操作。通过对爬网程序收集的数据执行搜索算法,搜索引擎可以响应用户搜索查询提供相关链接。当用户在谷歌或Bing(或其他搜索引擎)输入搜索词时,会生成显示网页列表的搜索结果。
爬网程序机器人就像图书馆管理员,会浏览杂乱无章的书籍,整理卡片目录,方便任何人快速轻松找到所需信息。为了按主题分类和组织书籍,管理员会浏览书名、摘要和部分内部文本,了解书籍概要。网络爬虫是一种计算机程序,自动扫描并系统地读取网页,为搜索引擎编制网页索引。它也被称为搜索蜘蛛或机器人。为了使搜索引擎向用户提供最新、相关的网页,必须发生网络爬虫的爬行。这个过程有时会自动发生(取决于爬虫和网站的设置),也可以手动启动。
影响网页SEO排名的因素众多,包括相关性、反向链接、虚拟主机等。然而,如果网页未被搜索引擎抓取和索引,这些因素都失去意义。因此,确保网站允许正确抓取并消除阻碍因素至关重要。网络爬虫必须持续扫描和爬取网络,以确保呈现最准确的信息。谷歌是美国访问量最大的网站,约26.9%的搜索来自美国用户。
没有统一为每个搜索引擎抓取信息的网络爬虫。每个搜索引擎都有独特优势,因此开发人员和营销人员会编制“爬虫列表”,帮助他们在网站日志中识别不同爬虫,以便接受或阻止。网站运营人员需要整理不同网络爬虫的列表,了解它们如何评估网站(区别于窃取内容的爬虫),以确保为搜索引擎正确优化页面。
网络爬虫如何工作?
网络爬虫的工作方式是发现URL,审查和归类网页。在此过程中,它们会发现指向其他网页的超链接,并添加到下一步抓取的网页列表中。网络爬虫能智能判断每个网页的重要性。搜索引擎的爬虫可能不会抓取整个互联网,而是根据因素如其他网页链接数量、页面浏览量、品牌权威性等决定抓取哪些网页、抓取顺序及频率。网络爬虫会在网页发布后自动扫描,为其编制索引。它们寻找与网页相关的关键词,为谷歌、必应等搜索引擎编制信息索引。
抓取网页是一个多步骤过程。例如,新网页或修改后的网页会被爬虫注意到并更新索引。你也可以请求搜索引擎抓取网站。当爬虫访问网页时,会查看副本和元标签,储存信息,为谷歌提供索引。在此之前,爬虫会查看网站的robots.txt文件,确定哪些页面需要抓取,因此该文件对技术性SEO至关重要。最终,爬虫决定网页是否出现在搜索结果页面上。值得注意的是,不同爬虫的行为可能不同,例如抓取重要网页的因素可能不同。当用户提交关键词查询时,搜索引擎算法会从索引中获取数据,并在几毫秒内显示在搜索结果页面上。
作为网站管理员,你可以控制哪些机器人抓取你的网站。因此,拥有爬虫列表很重要。每个网站服务器内都存在robots.txt协议,引导爬虫访问需要被索引的新内容。根据你在robots.txt中输入的内容,可以告诉爬虫在将来扫描或避免索引特定网页。通过了解爬虫在扫描中寻找的内容,你可以更好地为搜索引擎定位内容。
什么是不同类型的网络爬虫?
市场上的工具功能各异,但可分为两类:
– 桌面爬虫:安装并存储在电脑上。
– 云爬虫:使用云计算,无需在本地设备存储。
选择工具类型取决于团队需求和预算。基于云的选项通常允许更多合作,因为程序无需存储在个人设备上。安装后,可以设置爬虫在特定时间间隔运行,并生成报告。此外,在编制爬虫列表时,还可以按商业性质分类:
– 内部爬虫:公司开发团队设计,用于网站审计和优化。
– 商业爬虫:如Screaming Frog,公司用它爬行并评估内容。
– 开源爬虫:免费使用,由全球开发者构建。
了解不同类型的爬虫很重要,以便知道如何利用它们实现商业目标。
最常见的网络爬虫
没有一种爬虫能为所有搜索引擎完成所有工作。相反,存在多种网络爬虫评估网页,为全球用户提供的所有搜索引擎扫描内容。以下是今天一些最常见的网络爬虫(通常称为搜索引擎爬虫):
1. **Googlebot**
Googlebot是谷歌通用网络爬虫,负责抓取将在谷歌搜索引擎上显示的网站。它是Google使用的网络爬虫软件,负责为Google搜索引擎构建用户可搜索的网络索引。Googlebot包括Googlebot Desktop和Googlebot Mobile两种类型,它们遵循相同的用户代理标记(“Googlebot”)。Googlebot每隔几秒就会访问网站(除非被robots.txt阻止),扫描过的页面备份保存在Google Cache数据库中,让你能查看网站旧版本。此外,Google Search Console也是站长了解Googlebot如何抓取网站并优化搜索的另一个工具。
2. **Bingbot**
Bingbot是微软2010年创建的,用于扫描和索引URL,确保Bing为用户提供相关、最新的搜索引擎结果。与Googlebot类似,开发者或营销人员可以在网站的robots.txt中定义是否批准“bingbot”扫描其网站。此外,Bingbot能区分移动优先索引的爬虫和桌面爬虫,与Bing网站管理员工具一起,为网站管理员提供更大灵活性,以显示网站如何在搜索结果中被发现和展示。
3. **Yandex Bot**
Yandex Bot是俄罗斯搜索引擎Yandex的专用爬虫,是俄罗斯最大和最受欢迎的搜索引擎之一。网站管理员可以通过robots.txt文件允许Yandex Bot访问网站页面。此外,他们还可以在特定页面上添加Yandex.Metrica标签,在Yandex网站管理员中重新索引页面,或发布IndexNow协议,这是一份报告新、修改或停用页面的独特报告。
4. **Apple Bot**
Apple Bot由苹果公司委托,为Siri和Spotlight抓取和索引网页。Apple Bot在决定哪些内容提升到Siri和Spotlight建议中时,会考虑多种因素,包括用户参与、搜索词相关性、链接数量/质量、基于位置的信号,甚至网页设计。
5. **DuckDuck Bot**
DuckDuckBot是DuckDuckGo的网络爬虫,提供“网络浏览器上的无缝隐私保护”。网站管理员可以使用DuckDuckBot API查看DuckDuck Bot是否抓取了他们的网站。随着抓取,它会用最新的IP地址和用户代理更新API数据库,帮助管理员识别冒名顶替者或恶意机器人。
6. **Baidu Spider**
百度是中国领先的搜索引擎,而Baidu Spider是其唯一爬虫。由于谷歌在中国被禁止使用,若想进入中国市场,启用百度蜘蛛抓取网站至关重要。要识别抓取网站的百度蜘蛛,可寻找用户代理:baiduspider、baiduspider-image、baiduspider-video等。若不在中国市场做生意,阻止百度蜘蛛可能是有意义的,这将阻止百度蜘蛛抓取网站,从而消除网页出现在百度搜索结果页面的机会。
7. **Sogou Spider**
搜狗是中文搜索引擎,据称拥有100亿中文网页索引。Sogou Spider是搜狗的爬虫。若在中国市场开展业务,这是你需要了解的另一个流行搜索引擎爬虫。Sogou Spider遵循机器人的排他性文本和爬行延迟参数。若不在中国市场做生意,应禁用该蜘蛛以防止网站加载过慢。
8. **Facebook External Hit**
Facebook External Hit(又称Facebook Crawler)抓取在Facebook上分享的应用程序或网站的HTML。这使社交平台能为每个分享的链接生成可分享的预览,包括标题、描述和缩略图。若抓取未在几秒内执行,Facebook将不会在分享前显示内容。
9. **Exabot**
Exabot是Exalead的爬虫,Exalead是一家成立于法国的搜索引擎公司,其搜索工具特色包括语音搜索、语言监测及定位搜索、资料分群。Exabot是Exalead基于CloudView产品构建的核心搜索引擎抓取器。像大多数搜索引擎一样,Exalead在排名时同时考虑反向链接和网页内容。Exabot的用户代理是Exalead的机器人,创建了一个“主索引”,汇编搜索引擎用户将看到的结果。
10. **Swiftbot**
Swiftype是一个为网站定制的搜索引擎,结合了“最好的搜索技术、算法、内容摄取框架、客户端和分析工具”。Swiftype为网站搜索提供动力。若网站有许多页面,Swiftype提供了一个有用界面,为所有页面编目和索引。Swiftbot是Swiftype的网络爬虫,但与其他机器人不同,它只抓取客户要求的网站。
11. **Slurp Bot**
Slurp Bot是雅虎的搜索机器人,为雅虎抓取和索引网页。这种抓取对于Yahoo.com及其合作伙伴网站(包括Yahoo News、Yahoo Finance、Yahoo Sports)都是必不可少的。没有它,相关网站列表就不会出现。被索引的内容有助于为用户提供更加个性化的网络体验和更多相关结果。
SEOers需要知道的8个商业爬虫
现在你的爬虫名单上有11个最受欢迎的机器人,让我们看看一些常见的商业爬虫和专业SEO工具:
1. **Ahrefs Bot**
Ahrefs Bot是流行的SEO软件Ahrefs提供的12万亿链接数据库的汇编和索引爬虫。Ahrefs Bot每天访问60亿个网站,被认为是仅次于Googlebot的“第二大活跃爬虫”。与其他机器人一样,它遵循robots.txt功能及网站代码中的允许/禁止规则。
2. **Semrush Bot**
Semrush Bot使领先的搜索引擎软件Semrush收集和索引网站数据,供其客户在平台上使用。这些数据用于Semrush的公共反向链接搜索引擎、网站审计工具、反向链接审计工具、链接建设工具和写作助手。它通过汇编网页URL列表,访问它们,并保存某些超链接以供将来访问,从而爬行网站。
3. **Moz爬虫Rogerbot**
Rogerbot是领先的SEO网站Moz的爬虫,专门为Moz Pro Campaign网站检测收集内容。Moz部署了Rogerbot作为其爬虫。Rogerbot遵循robots.txt文件中的所有规则,因此你可以决定是否阻止/允许其扫描网站。由于Rogerbot的多面性,网站管理员无法通过搜索静态IP地址来查看Rogerbot抓取了哪些页面。
4. **Screaming Frog**
Screaming Frog是SEO专业人员用来检测网站并确定影响其搜索引擎排名的改进领域的爬虫。一旦开始爬行,可以审查实时数据,并确定无效链接或需要对页面标题、元数据、机器人、重复内容等进行改进的地方。配置抓取参数需要购买Screaming Frog许可证。
5. **Lumar (前身为Deep Crawl)**
Lumar是一个“维护网站技术健康的集中指挥中心”,通过该平台可以启动网站抓取,帮助规划网站架构。Lumar是市场上最快的网站爬虫之一,声称每秒可爬行450个URL。
6. **Majestic**
Majestic主要侧重于跟踪和识别URL的反向链接。Majestic爬虫使SEO能够检测反向链接数据。该公司以拥有“互联网上最全面的反向链接数据来源之一”而自豪,其历史指数在2021年已从5年的链接增加到15年。该网站的爬虫将所有这些数据提供给客户。
7. **cognitiveSEO**
cognitiveSEO是另一个重要的SEO软件,许多专业人士都在使用。它提供了一个强大的网站检测工具。cognitiveSEO爬虫使用户能够进行全面的网站检测,为网站架构和总体SEO战略提供信息。该机器人抓取所有页面,并提供“完全定制的数据集”,这对最终用户来说是独一无二的。该数据集还将为用户提供建议,说明如何为其他爬虫改进网站——既影响排名,又阻止不必要的爬虫。
8. **Oncrawl**
Oncrawl是面向企业级客户的“业界领先的SEO爬虫和日志分析器”。Oncrawl是另一个提供独特数据的SEO爬虫软件。用户可以设置“爬行配置文件”,为爬行创建特定参数。可以保存这些设置(包括起始URL、抓取限制、最大抓取速度等),以便在相同参数下轻松再次运行抓取。
我是否需要拦截并免受恶意网络爬虫的侵害?
并非所有爬虫都是好的。有些可能会影响页面速度,而有些则可能试图入侵或具有恶意。这就是为什么了解如何阻止爬虫进入网站很重要。通过建立爬虫列表,你就会知道哪些爬虫是需要注意的好爬虫。然后,你可以剔除可疑爬虫,并将它们添加到拦截列表(WordPress可以通过Spider Analyser插件实现)中。
如何拦截恶意的网络爬虫
有了你的爬虫列表,你就能确定哪些是你想批准的机器人,哪些是你需要阻止的。第一步是浏览爬虫列表,定义与每个爬虫相关的用户代理和全代理字符串,以及它的具体IP地址。这些是与每个机器人相关的关键识别因素。有了用户代理和IP地址,你可以通过DNS查询或IP匹配在网站记录中与之匹配(你可以通过我们提供的蜘蛛查询工具,输入爬虫的IP地址,快速查询识别该IP地址是否来自真实的蜘蛛或爬虫)。如果它们不完全匹配,你可能有一个试图冒充真实机器人的恶意机器人。然后,你可以通过使用robots.txt网站标签调整权限来阻止这个冒牌货,或者通过Spider Analyser插件快速拦截一切不需要的蜘蛛爬虫。
小结
网络爬虫对搜索引擎很有用,对网站内容运营人员(SEOers)或站长也很重要,需要了解。确保网站被正确爬虫正确抓取,对业务成功至关重要。通过保留一个爬虫列表,你可以知道哪些爬虫出现在你的网站日志中时需要注意。当你遵循商业爬虫的建议,改进网站的内容和速度时,你将使爬虫更容易访问你的网站,并为搜索引擎和寻求信息的消费者索引正确的信息。