页面收录情况查询-Screaming Frog

摘要:网站页面只有被谷歌收录,才能够在搜索结果上显示排名。本文主要介绍三种检查网站未收录页面的方法。

文章要点:

  1. info命令/新版GSC查看单个页面是否被谷歌收录
  2. GSC可导出1000个页面收录数据
  3. 超过1000个页面收录检查/快速检查部分新上线页面收录情况:Screaming Frog爬取网页快照,确定页面快照是否存在,来反推页面是否已被收录
    • 使用Excel的VLOOKUP函数,匹配GA近期访问和整站Sitemap文件,筛选掉部分已被收录页面,得到未确认是否收录页面,为下面步骤提高效率
    • 使用Excel的CONCATENATE函数,匹配快照命令+页面链接,直接批量生成网页快照链接
    • Screaming Frog爬取确认网页快照,返回200码则已被收录,302码需要进一步检查(注意使用VPN,调整爬取速度,避免被谷歌block out)
    • 对爬取结果返回302的页面进行检查

 

我们知道网站页面要在SERP中获得排名,其中的流程非常复杂,但总归分为三个部分:爬行和抓取页面HTML代码存入数据库;对页面数据进行文字提取、中文分词等预处理;最后等待用户搜索关键词,页面才在SERP中呈现排名。

 

如果单独查看某个页面是否被收录,可以用info命令(如info:www.crossborderdigital.cn/us-apparel-industry-overview/)进行搜索,如果搜索引擎显示结果,说明该页面已经被收录。

 

1 info-search

 

也可以通过新版google search console URL Inspection功能查看

 

2 URL-inspection

 

对于希望大量检查网站页面收录情况的用户,可以使用新版GSC index report,可以导出网站页面收录情况报告,方便检查哪些页面不被收录,但是只能导出1000个页面。

 

GSC-index-report

 

除了用GSC批量查看网站页面收录情况,还有一个替代方案是通过用Screaming Frog查cached页面Http状态,由于网页快照(cached)是搜索引擎在收录网页时对网页进行的备份,因此可以利用爬虫爬取该页面的数据来确认网页是否在搜索引擎中存有网页快照,确定是否被搜索引擎索引。页面数量在1000以上的站点,或是只希望检查新页面收录情况的用户,可以尝试使用这个方案。以下为大家展示如何使用Screaming Frog批量检查页面收录情况。

 

screaming-frog

1.站内:GA匹配sitemap筛选部分已被收录页面。

页面数量特别多的站点,可以先通过筛选掉部分已经确认被收录的页面,提高下面收录检查的效率。页面可以被自然访问,说明搜索引擎为用户展示了该页面,即GA中获得自然访问的页面为已收录页面。这一步我们直接通过筛选掉GA导出近一月内获得展示页面,去除大量已被收录页面,提高下列步骤的效率。

 

GA-all-web-data

 

导出GA数据后使用VLOOKUP函数与网站sitemap进行匹配,筛选掉匹配成功(即确定被收录的页面)。简单说明一下VLOOKUP函数中要求包含的数据,即=VLOOKUP(待匹配数据,被匹配数据,需要的数据在被匹配数据中的x列,返回近似值1或精确值0),在此方法中为=VLOOKUP(sitemap中某个页面如A2,GA数据列表A2:A731,取列表中只一列的数据1,精确匹配0),得到sitemap数据中能够在GA数据中能匹配到的页面。删除已匹配到的页面,我们就得到未确定被收录的页面,接着下一步骤。

 

vlookup-function

2.批量生成谷歌网页快照链接。

上步得到的未确定收录页面,现在我们考虑用Screaming Frog爬取谷歌页面缓存的方式,来确认页面是否已被收录(收录则检测得到该缓存快照)。由于谷歌缓存快照(cached)链接有一定规律(https://webcache.googleusercontent.com/search?q=cache:页面链接),因此我们这一步利用excel上的连接函数,将谷歌缓存命令与网页链接批量连接起来,得到下一步预备筛选的链接列表。

 

cached-excel-function

3.用Screaming Frog批量抓取链接状态。

现在我们只需要通过Screaming Frog批量抓取这些链接状态,如果状态码返回200,则该页面成功被搜索引擎索引;如果是404,则说明未被索引。

点击Upload上传所有待检查链接,点击Start开始爬取页面信息:

 

screaming-frog-cache

 

注意:

由于我们现在是通过爬虫软件来抓取谷歌的搜索信息,IP地址极有可能被block out,因此在使用爬虫前,要注意使用VPN来操作,混淆我们的IP地址,并且降低Screaming Frog爬取速度。

开启Screaming Frog上的代理:Configuration>System>Proxy中点选“Use Proxy Server

 

1 use-proxy-server

 

控制Screaming Frog的爬取速度:

 

2 control-bug-speed

4.对爬取结果进行检查。

如果在爬取过程中都被返回302状态码,则表示被谷歌block out,需要调整爬行速度,更换VPN地区。如果仅有几个链接返回302状态码,则是谷歌需要对你进行人机识别,我们可以进行逐个查询。

 

check-404