首页 > 新闻中心 > 技术解答 >  百度蜘蛛升级https抓取

百度蜘蛛升级https抓取

来源:爱搜 | 时间:2021-08-20 | 浏览:16082

百度蜘蛛

上线时间:2017年8月30号公布,8月期间已上线


主要影响:升级了对HTTPS数据的抓取力度,HTTPS数据将更快被Spider抓取到。


除了抓取,百度表示过,https页面在权重上也有加分,百度的原话是“网站评价高、落地页评价高、搜索展示等收益优待。”Google几年前就开始对https页面提权。


HTTPS是大势所趋,主要还是为了安全,搜索引擎对https页面在抓取、排名上也会有更多优待。建议站长尽快把网站从http转移到https,早晚要转,不如早转。


HTTPS中文译为安全超文本传输协议,是以安全为目标的HTTP通道,简单讲是HTTP的安全版。百度升级了对HTTPS数据的抓取力度,以后HTTPS数据将更快被蜘蛛抓取到。


有站长问,百度已经抓了我的HTTPS页面了,搜索结果还替换成了HTTP链接,我该怎么办?


1、一般24小时内,线上可以实现HTTPS到HTTP的退回效果。


2、设置HTTPS的抓取返回失败码,或者做HTTPS到HTTP的301&302。


3、短期内不打算开放HTTPS的站点,可以直接关闭443端口。


4、使用链接提交工具,把HTTP页面提交,便于百度更快识别页面。


如何让百度蜘蛛不断抓取你的网站


1、网站没有死链接


如果你的网站有很多死链接,那么你的网站是很难优化上去的。


网站过多的死链接非常影响蜘蛛的抓取和搜索引擎对网站权重排名的评估,也增大了网站服务器的负担,所以要经常检查网站日志是否出现404页面等,让蜘蛛在自己网站上畅行无阻。


2、高质量的内容


高质量的内容可以吸引蜘蛛经常来你的网站,如果你的网站是纯采集的,会增加蜘蛛抓取的工作量,从而降低蜘蛛对你网站的敏感性,宁愿更新少的高质量内容,不要采集或者更新垃圾内容。


3、网站代码简化


代码应尽可能简化,更好选择只属于你的开源程序。


这是因为有的网站代码相似度极高,导致蜘蛛不爱爬取,独特的程序代码在同类型的网站更占据有优势。


4、外链资源


外链和友情链接是吸引蜘蛛来抓取我们的网站的非常大的流量入口。


站长可以到各大博客、论坛等平台发布自己的高质量外链,留下链接引导蜘蛛进入你的网站。


5、按照时间段更新内容


时间段意思是更新网站内容时间要一致,例如你每天11.30分更新网站内容,那么蜘蛛每天会在11.30分会来爬行抓取你的网站。


如网站还在做HTTPS的改造,且网站数据未搭建好,建议网站采取以下措施,避免蜘蛛抓取,以免造成网站流量损失。


1、针对一个服务器下有多个域名的情况,建议未做HTTPS的网站,设置HTTPS抓取返回失败码,或将HTTPS站点301/302到HTTP,避免抓取出现问题。


2、做HTTPS到HTTP的301、302。


3、把HTTPS的协议封掉,可把443端口关掉。


4、建议站点在改HTTPS没改造好之前,不要提供超链接指向。


在线咨询
TOP