返回栏目
首页SEO优化 • 正文

搜索引擎爬虫抓取代刷网的三大更新策略

发布时间:  浏览: 次  作者:网站编辑

站长推荐:百万QQ名片赞免费送、低价理论永久QQ钻、可以刷快手业务、抖音业务、火山业务、微博业务、空间人气、说说赞,免费搭建分站拿高额提成,点此进入:三八代刷网

《站长推荐》 抖音粉丝点赞  抖音上热门  快手粉丝双击  快手上热门  王者荣耀人气值  低价影视会员  名片赞  空间人气  空间说说  空间留言  全民K歌  新浪微博  小红书  厘米秀  微信代刷  欢乐豆  球球大作战  QQ情侣空间  网课代刷  美图秀秀 

搜索引擎爬虫的更新,基本应用在像快照的更新,搜索引擎对已抓取页面的再抓取行为等。至于为什么要进行再抓取基本是因为互联网上万万亿的页面量。很多页面还是有一直变化的。这个变化的前置因子,导致了爬虫要不断的更新自己的数据,从而一定要对已经抓取的网页进行再抓取。那搜索引擎爬虫的三大更新策略都是什么呢?
 
搜索引擎爬虫的历史更新策略
所谓历史更新策略,就是针对已经抓取的网页有一个再抓取的时间限制。例如爬虫抓取我SEO博客的首页,从而搜索引擎通过一直以来的抓取得出我的博客首页平均每3天更新一次,那么爬虫的抓取策略就会调整为每3天访问一次我的博客首页。
 
这样的更新抓取策略告诉我们,网页变化频繁就会引来蜘蛛的频繁抓取。所以在这里如果你的网页全部是静态的。也就意味着不生成一遍对应页面是不会发生变化的。相对而言针对这种策略逻辑你就不是很站好。所以网址设置为伪静态的,在网站打开速度能够很好控制的前提下,把网页本身设置为动态页面是很不错的选择。
 
搜索引擎爬虫的用户体验更新策略
所谓用户体验的网页更新策略,是搜索引擎认为网页参与具有一定搜索量词的排名,且在前3页的,是经常会被用户访问到的页面。那么针对这类页面要更优先的进行抓取更新。
 
而3页之后的网页对于用户而言,访问的人占到了极少数,晚一些时间更新也未尝不可。因此采取的一种网页抓取更新策略。
 
这种策略让我们知道,一些核心关键词排名靠前的网页,被爬虫抓取的频次是更多的。那么值得思考的一个问题是网站也会有一些详情页,聚合页甚至文章页参与比错的词的排名。这是不是意味着这次页面抓取量也不错呢?针对这个问题,赵彦刚之前通过对访问日志的分析确定了这个答案,在80%的情况下,确实是这样的。但这种页面的频率远低于首页、频道页等距离首页更近,路径更短的页面抓取量。
 
不过,我们还是可以好好优化我们的详情页/文章页,在这类页面以展示最新内容,为最新内容的收录增加爬虫抓取的入口。
 
搜索引擎爬虫抓取网页的抽样聚类策略
谈到这个策略,我们先从字面意思来看“抽样,聚类”。抽样是指从网站中抽取一些样本出来进行观察,而聚类是根据这些样本的观察得出一定的结论后应用于这个类型上。
 
我们的网站都是有不同类型组成的,例如列表页、产品详情页、文章页、频道页、聚合页等,这些都是不同的类型。搜索引擎从这中间抽选出一些样本,进行观察后得出一个更新周期后,应用于整个类型的方式就是抽样聚类的网页抓取更新策略。
 
我们举个例子,搜索引擎从列表页抽样找到A列表页,通过分析观察发现A列表页每2天可以抓取一次。然后和A列表页同类型的还有B、C、D列表页,因为他们的模版一样、导航都有、首页下模块也特指这四个列表页。那么他们是一类的,所以B、C、D列表页和A列表页一样,都是2天一抓取。
 
好了今天的分享就到这里,希望对你有所帮助,如果你有什么问题欢迎在留言去给我留言。

    相关文章Related

    随机文章Random

    返回栏目>>

    首页   |   关于我们   |   APP下载

    晓学教程网提供各种的QQ技术咨询及免费资源分享

    商务合作、友情链接请联系QQ:82136546

    Copyright 鲁ICP备13026426号-1

    返回顶部