如图,这是一个 janitorai 实现的分页器,他是采用 div 的形式。
我们到 SEMRush 去查询这个页面的流量,可以观察到,这整个页面只被爬取了第一页的数据
这其实验证了第七章 1.3 Googlebot 的工作原理:Googlebot 会先分析 HTML 里的待爬取链接( a 标签)和需要下载的 JS 文件,选择性的
下载 JS 文件,然后尝试渲染和执行 JS ,但本身这一步资源耗费多或者 JS 执行错误等问题的存在,大概率是失败或者压根就不会执行的。
就会导致这种分页器的写法会直接导致后续页码无法被索引。
那比较标准的利于 SEO 的分页器是怎么样的那?我们以 Github 为例。
在元素检查中,可以知道,Github 的分页器直接就是链接,以 query 的形式跟着页面 url 后面。
而在返回的 document 中也是直接返回了 a 标签,去利于爬虫索引。
分页的 SEO,采用最简单的,返璞归真的标签🏷️,这才是让每一页的内容能够被搜索引擎完整收录的方法 关于我