WordPress内容采集反击策略与SEO优化技巧
内容采集,这一在互联网发展初期就已存在的现象,如今被我们更贴切地称为“内容窃取”。对于任何定期更新内容或致力于搜索引擎优化(SEO)的创作者而言,这无疑是一种令人沮丧的挑战。究竟什么是内容采集呢?简单来说,它指的是他人未经授权,通过手动操作或借助插件、机器人等自动化工具,将您的内容搬运到他们自己的网站上进行展示,而完全不给予署名或任何形式的信用。这种行为往往出于获取流量、提升SEO排名或吸引新用户的动机,不仅侵犯了美国及其他一些国家的版权法,也遭到了谷歌的严厉反对。谷歌强烈建议创作者坚持打造原创内容,以提升网站价值。
谷歌列举了以下几种典型的内容采集行为:
从其他网站直接复制并粘贴内容,没有任何原创成分或价值添加的网站;
从其他网站复制内容后,通过替换同义词或使用自动化技术稍作修改,再进行发布的网站;
从其他站点抓取内容提要,但未提供任何独特组织或用户利益的网站;
专门从其他网站嵌入视频、图片等媒体内容,却未为用户带来实质性附加价值的网站。
需要注意的是,内容采集与内容联合(content syndication)存在本质区别。内容联合通常指您在授权第三方平台重新发布自己的内容,以扩大影响力,此时需使用rel=canonical或noindex等标签进行规范。而内容采集则涉及未经授权的盗用行为。
近年来,许多第三方WordPress插件的出现,使得自动抓取第三方RSS源成为可能。尽管这些插件的初衷可能是好的,但不幸的是,它们有时会被用于恶意的内容采集。WordPress因其易用性而广受欢迎,但也因此成为了内容采集者青睐的对象。
内容采集农场是另一种值得警惕的现象。当同一个主体在数十个网站上实施内容采集时,这些网站便构成了一个“农场”。这类网站通常很容易被识别,因为它们往往使用相同的主题模板,域名之间差异微小。我们曾在近期的一篇帖子中揭露了几个典型的内容采集农场案例,这些网站不仅毫无价值,反而贬低了原创内容创作者的辛勤付出。我们已存档这些网站的链接,以备不时之需。通过点击这些链接,您可以发现它们都采用了相同的主题,并重复使用了被抓取的内容。这些刮板网站从众多来源抓取内容,我们的博客不幸成为其中之一。
如何发现这些内容采集网站呢?最简单的方法之一是借助Copyscape(暂不支持中文)或Ahrefs等工具。Copyscape甚至允许您提交站点地图文件,在扫描网络时自动通知您内容被采集的情况。此外,您还可以使用Google的“allintitle”搜索标签,输入标签和您的文章标题进行搜索。另一种更有效的方法是在您的文章中选取一些独特文本,用双引号括起来进行搜索。虽然标题搜索可能会产生误报,但第二种方法更为精准,因为完全相同的句子或段落出现的概率较低。
内容采集会对SEO产生怎样的影响呢?这是许多创作者关心的问题。以我们之前提到的采集农场为例,它们并未使用rel=canonical标签、给予署名或设置noindex标签。这意味着当谷歌爬虫访问这些网站时,可能会将其误判为原创内容。虽然这种情况看似不公平,但谷歌的算法并非如此简单。谷歌拥有众多规则和检测机制,能够识别出内容的真正来源,并给予原创者应有的信用。
让我们从SEO的角度分析一下这些采集案例。其中一个网站早在2017年11月就采集了我们的博客文章,如果它想要通过这篇文章获得排名,理论上已有足够时间。通过使用Ahrefs工具,我们发现这些采集网站并未在相关关键词上获得排名,说明它们并未因此获得任何自然流量。相比之下,我们的原创文章则对96个关键词进行了排名,展现了原创内容在SEO上的显著优势。
谷歌在判断内容归属时,会综合考虑发布日期、域名权限、页面排名、社会信号、反向链接等多种因素。虽然我们无法确切知道谷歌使用的所有算法细节,但可以肯定的是,内容采集并非一定会对您的SEO造成致命打击。然而,如果有人利用您的原创内容超越您,那确实需要引起重视。
如何应对内容采集呢?首先,创作优质、独特且值得分享的内容本身就是一种保护。但除此之外,您可能还需要采取以下措施:
如果某个拥有大量流量的网站在抓取您的内容,并以此补充其自身内容,这无疑是对您权益的侵犯。这些采集行为会扭曲您的报告工具中的数据,例如Ahrefs或Majestic等工具的反向链接报告,给您的SEO工作带来困扰。
我们是否应该完全依赖谷歌来判断内容归属?尽管谷歌在这方面非常智能,但我们仍需保持警惕。此外,即使采集网站没有任何关键词排名,它们的内容仍可能被谷歌索引。
面对内容采集,我们首先尝试联系网站所有者,要求删除侵权内容。为此,我们建议创建一些可复用的电子邮件模板,以提高沟通效率。如果多次尝试后仍未得到回应,我们会采取更进一步措施,提交DMCA投诉。虽然DMCA投诉需要一些技术操作,如查找网站IP和主机等,但我们可以提供详细的操作指南。此外,您也可以直接向谷歌提出合法删除请求。
以我们之前的案例研究为例,由于无法联系到网站所有者,我们决定采取更严厉的措施。同时,为了防止这些采集网站对我们自身网站产生不良影响,我们将这些域名添加到拒绝文件中。这相当于告诉谷歌,我们不愿与这些网站有任何关联,也不会试图通过它们操纵搜索结果页(SERP)。对于高质量网站,您可以选择仅提交特定URL进行拒绝,而不是整个域名。尽管通常情况下,高质量的网站不会进行内容采集。
在处理拒绝文件时,Ahrefs提供了非常便捷的功能。您可以在Ahrefs中选择有问题的域名,点击“Disavow Domains”,确保该域名下的所有内容都不会影响您的SEO。Ahrefs的“隐藏拒绝链接”选项尤其值得称赞,它能让您自动隐藏这些域名和URL,避免它们在未来出现在您的主报告中,有助于保持报告的整洁和清晰。
接下来,您需要将Ahrefs生成的拒绝文件(TXT格式)提交到谷歌的Disavow Tool。具体操作步骤如下:
1. 在Ahrefs中,选择有问题的域名,点击“Disavow Domains”,然后导出拒绝文件。
2. 转到Google Search Console,选择您的个人资料,点击“Disavow LINKS”,上传并提交从Ahrefs导出的拒绝文件。
如果您之前未使用过Ahrefs,且已存在拒绝文件,建议先下载当前文件,将其与新文件合并后再上传。此后,您可以继续使用Ahrefs进行管理。
除了上述措施,您还可以进一步屏蔽采集网站的爬虫IP。您可以通过编辑.htaccess文件或Nginx规则,在服务器层面阻止这些IP。如果您使用的是Sucuri或Cloudflare等第三方WAF,它们也提供了拦截IP的功能。
内容采集农场可能不会直接影响您的SEO,但它们绝对无法为用户带来任何价值。我们强烈建议您积极清理这些网站,以维护网络环境的健康发展。我们使用Trello创建了专门的卡片来管理“删除”请求,这有助于我们更高效地处理此类问题。
对于希望打造内容聚合站点的站长们,我们提出以下建议:
1. 保持一定比例的原创内容,尤其是对于新站而言,原创内容应占据更大比例。
2. 即使进行内容采集,也应进行深度加工,无论是使用工具还是手动编辑,确保内容质量。
3. 使用搜索推送插件,及时将内容推送给搜索引擎,提升收录速度。
通过这些措施,您不仅能有效应对内容采集的挑战,还能提升网站的整体质量和用户体验。