文章要点:
我们知道网站页面要在SERP中获得排名,其中的流程非常复杂,但总归分为三个部分:爬行和抓取页面HTML代码存入数据库;对页面数据进行文字提取、中文分词等预处理;最后等待用户搜索关键词,页面才在SERP中呈现排名。
如果单独查看某个页面是否被收录,可以用info命令(如info:www.crossborderdigital.cn/us-apparel-industry-overview/)进行搜索,如果搜索引擎显示结果,说明该页面已经被收录。
也可以通过新版google search console 的URL Inspection功能查看
对于希望大量检查网站页面收录情况的用户,可以使用新版GSC 的index report,可以导出网站页面收录情况报告,方便检查哪些页面不被收录,但是只能导出1000个页面。
除了用GSC批量查看网站页面收录情况,还有一个替代方案是通过用Screaming Frog查cached页面Http状态,由于网页快照(cached)是搜索引擎在收录网页时对网页进行的备份,因此可以利用爬虫爬取该页面的数据来确认网页是否在搜索引擎中存有网页快照,确定是否被搜索引擎索引。页面数量在1000以上的站点,或是只希望检查新页面收录情况的用户,可以尝试使用这个方案。以下为大家展示如何使用Screaming Frog批量检查页面收录情况。
页面数量特别多的站点,可以先通过筛选掉部分已经确认被收录的页面,提高下面收录检查的效率。页面可以被自然访问,说明搜索引擎为用户展示了该页面,即GA中获得自然访问的页面为已收录页面。这一步我们直接通过筛选掉GA导出近一月内获得展示页面,去除大量已被收录页面,提高下列步骤的效率。
导出GA数据后使用VLOOKUP函数与网站sitemap进行匹配,筛选掉匹配成功(即确定被收录的页面)。简单说明一下VLOOKUP函数中要求包含的数据,即=VLOOKUP(待匹配数据,被匹配数据,需要的数据在被匹配数据中的x列,返回近似值1或精确值0),在此方法中为=VLOOKUP(sitemap中某个页面如A2,GA数据列表A2:A731,取列表中只一列的数据1,精确匹配0),得到sitemap数据中能够在GA数据中能匹配到的页面。删除已匹配到的页面,我们就得到未确定被收录的页面,接着下一步骤。
上步得到的未确定收录页面,现在我们考虑用Screaming Frog爬取谷歌页面缓存的方式,来确认页面是否已被收录(收录则检测得到该缓存快照)。由于谷歌缓存快照(cached)链接有一定规律(https://webcache.googleusercontent.com/search?q=cache:页面链接),因此我们这一步利用excel上的连接函数,将谷歌缓存命令与网页链接批量连接起来,得到下一步预备筛选的链接列表。
现在我们只需要通过Screaming Frog批量抓取这些链接状态,如果状态码返回200,则该页面成功被搜索引擎索引;如果是404,则说明未被索引。
点击Upload上传所有待检查链接,点击Start开始爬取页面信息:
注意:
由于我们现在是通过爬虫软件来抓取谷歌的搜索信息,IP地址极有可能被block out,因此在使用爬虫前,要注意使用VPN来操作,混淆我们的IP地址,并且降低Screaming Frog爬取速度。
开启Screaming Frog上的代理:Configuration>System>Proxy中点选“Use Proxy Server”
控制Screaming Frog的爬取速度:
如果在爬取过程中都被返回302状态码,则表示被谷歌block out,需要调整爬行速度,更换VPN地区。如果仅有几个链接返回302状态码,则是谷歌需要对你进行人机识别,我们可以进行逐个查询。
Copyright © 2024 深圳市环创网络技术有限公司版权所有
粤ICP备17073372号