您可能认为这是任何网站的先决条件,为什么这在决定抓取预算时变得如此重要。在过去几年的分析中,我了解到并非所有网站都有相同的抓取要求。对于一些网站,标签页可能没有多大用处,但对于一些网站,标签页可能很重要。有些情况下,客户向我提供了一个完全不索引的页面。
这就是管理 robot.txt 文件的作用所在。小型网站可以轻松手动管理 robots 文件。但是,对于拥有数千页的网站,您可能需要第三方工具的帮助来了解重要页面是否被抓取。一些最受欢迎的工具包括DeepCrawl和ScreamingFrog。对于大型网站,强烈建议进行彻底的抓取检查,以避免出现与抓取相关的问题。
避免过长的重定向链
尽管有少量 301 或 302,Google 还是会耐心等待页面内容,这并不会影响页面数量很少的网站的抓取速度。这家搜索引擎巨头已经证实,较长的重定向链会使其抓取工具在单个页面上花费更多资源,而这对 Google 的抓取工具来说并不是一件好事。
如果抓取工具发现大量较长的重定向链,则 建筑师数据库 可能会跳过该网站或最终索引较少的页面。尽管大型网站实际上不可能没有重定向,但 Google 建议对其进行限制。
推广 HTML 而不是其他格式
Google 总是尝试使用最新、最更新的 Chrome 浏览器版本来抓取互联网上的网页。这使得 Google 在理解 JavaScript 方面比以前更加智能。话虽如此,它在这方面仍在改进,距离完全完美还有一段距离。
不过爬虫处理Flash和XML的能力肯定要好一些,使用HTML和XML格式对抗JavaScript会对网站抓取率的提高产生影响。
更少的 5xx 错误意味着更好的抓取预算
404、410、500 错误是影响网站的页面并可随时取消无需任何理由抓 取率的最大技术故障之一。如果 Google 抓取工具在抓取网站时遇到 5xx 状态代码,则极不可能跳过,并且网站的抓取预算可能会大幅减少。为了确保页面不会变成错误状态,网站管理员必须使用 Screaming Frog 等工具进行定期网站审核。
什么是爬行深度?
爬行深度是指搜索引擎机器人在到达您网 BWB名录 站上的特定页面之前必须爬行的链接数。
它有时被称为点击深度,是衡量用户到达网站上的特定页面所需点击次数的标准。
抓取深度通常由导航到特定页面所需的步骤数决定。通常,主页是起点。
例如,您可以从主页直接访问的页面具有最低抓取深度。另一方面,需要您在网站上多次点击才能到达的页面具有相对较深的抓取深度。
为什么爬行深度很重要
爬行深度与用户体验以及网页的索引和排名密切相关。
如何?
想象一下。如果用户必须点击其他几个页面才能访问重要页面(例如服务页面或产品列表页面),他们可能会变得不耐烦和沮丧。这将导致糟糕的用户体验并大大影响您的转化率。
搜索引擎机器人也一样。如果他们必须抓取多个页面才能到达您的某个重要页面,这可能会耗尽您网站的抓取预算。
因此,您网站上的重要页面可能无法被搜索引擎更快地抓取和索引。这可能会影响您重要页面在 SERP 中的可见性。
因此,如果您尚未优化抓取深度,那么您就会损害网站的索引和排名潜力以及用户体验,而这肯定是您不想做的。
影响抓取深度的因素包括网站结构不佳、内部链接不正确或断开、缺乏 XML 站点地图实施等。
我将在本文后面详细介绍这些内容。
网站的理想抓取深度应该是多少?
让我们面对现实吧。抓取深度没有具体的经验法则。但问题就在这里。
由于最小爬行深度可以使网络爬虫更容易定位和爬行您的网页,我建议将您的优先网页尽可能靠近您的主页。
如果您仍然想要一个数字,最好将重要页面放在距离主页最多 3 次点击的位置。
考虑到您的主页的抓取深度为 0,最佳做法是将您希望搜索引擎更快抓取的页面的抓取深度保持在 3 或更低。
此外,请确保将重要页面添加到站点地图,以便向搜索引擎发出信号,让其在抓取您的网站时优先考虑这些页面。
提高爬行深度的技巧
现在您知道了抓取深度优化对您的网站有多重要,下面来看看一些有效的技巧来将其付诸实践。
改善网站结构
结构良好、设计简单直观的网站可以让搜索引擎机器人更轻松地浏览您的网站并高效地抓取您的网页。这将使搜索引擎更快地索引和排名您的内容,并提高其在线可见性。
此外,简洁美观的网站还能为用户带来轻松无忧的体验,并促使访问者深入探索您的网站和内容。这将提高用户对您网站的参与度,并对您的转化率产生积极影响。
您还可以为搜索引擎和用户实现面包屑导航,以了解您网站的层次结构。这也有助于提高抓取效率并改善用户体验。
分析并优化您的内部链接
网站内的链接是抓取深度优化不可或缺的一部分。毕竟,Google 机器人会跟踪链接来发现和抓取新页面。
密切观察现有的内部链接结构将有助于您缩小未正确链接到网站内相关页面的页面范围。确保使用适当的关键字来创建上下文链接。当您为内部链接提供清晰的上下文时,您可以帮助搜索引擎更好地理解您的内容。
说到内部链接,你肯定不希望爬虫跟踪你的某个链接却一无所获,对吧?为了防止这种情况发生,你需要修复断开的链接,并确保爬虫正确地指向相关页面。
如果您已将内容移动到新的 URL 目标,请使用 301 重定向将爬虫正确地指向新页面。