2018年,谷歌将熊猫纳入其核心算法。这对网站管理员来说意味着网站可以随时遭受内容惩罚(并从中恢复)。
但是,更有问题的是,这也意味着无法诊断网站排名下降的原因。谷歌最终不希望我们理解其排名算法是如何运作的,因为总会有人操纵它。我们现在怀疑核心信号如此缓慢地推出,以至于当企鹅或熊猫刷新时,SEO甚至都不会意识到。
出于这个原因,我们必须始终了解我们网站的表现。本博文旨在向您展示如何大规模进行全面的内容审核,以找出可能导致排名处罚的任何差距。
从本质上讲,网站可能会遇到五种类型的内容缺口。我将解释每一个,并向您展示如何在您的网站上快速找到它的每个实例。
1.内部重复的内容
内部重复的内容是内容缺口的父亲。在多个页面上复制优化内容将导致同类问题,其中Google将不知道哪个内部页面对该术语进行排名。这些页面将相互竞争排名信号,从而降低排名。
此外,如果您的网站上的目录中有足够的重复内容,Google会将整个目录视为低质量并惩罚排名。如果内容托管在根目录上,则您网站的整个排名都会受到威胁。
要大规模地查找这些,您必须使用Screaming Frog的自定义提取配置从您的站点提取所有内容,然后在Excel中进行重复比较。使用这种方法,我能够在几个小时内在一个站点上找到6,000个重复页面。
要配置Screaming Frog,首先需要在所有页面上复制内容块的CSS选择器。如果您的网页遵循一致的模板,这应该相对简单。
转到页面,右键单击内容并转到inspect元素。这将打开您右键单击的确切属性的右侧面板。从那里,再次右键单击,但在属性上,转到复制,然后选择复制选择器:
宁波网站建设
从这里你需要进入尖叫青蛙。进入配置下拉菜单并选择自定义,然后选择 提取。
宁波网站建设
从这里开始,将显示下面的框,然后您需要选择CSSPath作为模式,然后将选择器粘贴到突出显示的字段中,并将第二个下拉列表更改为提取文本。
现在,如果我在ASOS网站上进行爬行,Screaming Frog将从所有类别页面中提取上面的折叠内容。
您可以指定最多10个单独的路径来提取,因此当您拥有包含多个内容块的模板时,例如产品的上方和下方,或类别和产品及静态页面模板,您需要以与我相同的方式指定它们刚刚显示。
现在,整个页面的内容或整个内容块将被复制的可能性很小。通常,旋转内容会使大部分内容保持不变,但会替换特定关键字。因此,试图根据整个内容块找到重复内容是徒劳的。幸运的是,我已经针对这种情况创建了一个重复的内容工具。
启动该工具并仅将URL和内容输入到输入选项卡上的指定列中。基本上我们要做的是将内容分成句子并以这种方式比较事件。
输出仅在您有单个内容列时才有效,因此如果您必须在每个URL上提取多个内容块,只需在粘贴到工具之前将它们组合在一起。您可以使用连接函数执行此操作,例如看起来像这样(如果您的内容位于A2和B2列中)。
=连接(A2,“。”,“B2”)
中间的时间段是必不可少的(如果您的内容最后不包含句点),因为我们将按照完整句子将内容按文本拆分为列,因此将使用句点作为分隔符。
接下来突出显示包含内容的列,然后选择文本到列。选择分隔,然后选择其他并指定句点作为分隔符。
宁波网站建设
完成此操作后,您需要修改A3列中的公式,具体取决于您有多少分隔文本列。
宁波网站建设
在我的示例中,我有十列,因此我将编辑公式以显示为:
= A2 + 10
将公式向下拖动,这样我们就可以在前一个单元格的图形上添加10。此步骤是必要的,因为它允许我们按输出表上的URL对分隔的内容进行分组。
从这里您的输出表将自动填充。如果您有超过100,000行数据,则需要将公式向下拖动直到出现错误。
从这里开始,我会通过粘贴特殊的方式来锁定公式来加速电子表格。然后通过删除所有错误和0来清除输出表。
最后进入数据透视表电子表格并刷新表格,以显示按最高重复次数排序的所有网址。您可以展开URL以准确查看正在复制的句子。
宁波网站建设
在这个例子中,我发现了大量的页面(6,927页),这些页面在几个小时内完全相互重复。
2.外部重复内容
外部重复的内容是在多个网站上有目的地联合或被恶意网络机器人抓取的内容。外部重复内容的一个主要例子是公司复制制造商描述而不是写一些独特的东西。
当搜索引擎发现在多个网站上复制的内容时,它通常会计算出内容的发起者,然后将其余内容从其索引中删除。通常它在这方面相当不错,但是如果我们的网站有问题会抓取预算,或者通过具有更大权威的网站获得其内容联合,那么谷歌有可能将它们展示给我们。
找到外部重复的内容与以前一样开始。从网站中提取您的内容并使用下载将数据拆分为单个句子。
接下来,我们只需要阻止引用一些数据并将其搜索到Google(使用concatenate快速将所有数据放入块引号)。为了自动执行此过程,我们拥有自己的工具,可以一次为数千个搜索执行此操作。一个好的免费替代方案是使用URL Profiler的简单SERP刮刀。
您在这里所做的是在Google中搜索您的内容块。如果您的网站没有在P.1中显示,那么您有一个大问题。
搜索引擎观察被严重削弱。在这里,我搜索了我之前的一篇博文,Google已经找到了272个结果!
宁波网站建设
搜索引擎观察仍然处于第一位置,这不是问题,但是如果您发现自己被超越的情况,那么您将不得不重写该内容。
3.跨设备的内容差距
迫在眉睫的移动优先算法意味着这个问题应该成为每个人心中的最前沿。谷歌公开表示,桌面网站将根据其移动网站上显示的内容进行评判。这意味着如果我们的移动网页没有显示在桌面上的内容,我们将会对我们的排名产生影响。
要找到内容差距,它与以前的过程相同。您应该已经从桌面的角度抓取了所有页面。现在您只需要再次浏览所有模板,但在移动视图中。
启动网页并进入检查元素并将设备更改为移动设备:
进入内容体并以与以前相同的方式复制选择器,然后再次对所有URL进行爬网。
完成后,您可以在Excel中并排比较内容的差距。如果每页有多个选择器,请记住连接数据。
将它们放在Excel文档中,一个简单的函数可以帮助您立即发现间隙。
这里我所做的就是以下功能,我立刻得到了一些结果:
= IF(B2 = C2,“匹配”,“不匹配”)
现在的共识似乎是手风琴上的手风琴是可以的,所以不要担心会损害你的设计以获取你的所有内容。只要确保它就在页面上。
4.内容薄
由于显而易见的原因,精简内容与重复内容一样重要。如果页面上没有大量有价值的内容,Google将无法理解该页面的主题,因此该页面将难以对任何内容进行排名。此外,如果网页上没有任何相关信息,网页如何声称自己是主题的权威?谷歌需要内容以排名页面,这是SEO 101!
幸运的是,我们已经有90%的方法来诊断我们所有的精简内容页面了。如果您已完成步骤1-3,则您已通过URL在移动和桌面网站上获得了内容。
现在我们只需要复制这个公式,根据我们正在分析的内容更改单元格引用:
= IF(LEN(TRIM(B2))= 0.0,LEN(TRIM(B2)) – LEN(SUBSTITUTE(B2,
这将为我们提供URL的字数(适用于移动和桌面)。然后通过并提出少于300字的任何页面,因为需要额外的内容。
5.页面加载上方的内容
内容差距的最终类型是我的一个巨大的bugbear。据估计,我们的注意力的80%被页面加载时可见的网页部分捕获。
谷歌了解隐藏在页面底部的内容可能永远不会被阅读。因此,他们没有给这里的内容赋予那么多的权重。无论您在页面上有多少有价值的内容,如果在页面加载中看不到大部分内容,那么这是一种浪费的努力。
为了诊断我们所拥有的折叠内容的数量,我们需要重新运行爬网,但这次我们只想提取在页面加载时可见的内容块。从这里开始,运行上面的字数公式就足以诊断内容空白。
你有它。一旦发现重复/精简内容页面,您如何处理?我建议每个网址上至少应包含200-300字的独特,有价值的内容,首页上至少有50-100个字。如果您无法在页面上生成大量有价值的信息,则页面不应存在或页面不应该是可索引的。