Baiduspider的意思是百度蜘蛛,是百度搜索引擎的自动程序。它的功能是对互联网上的网页、图片、视频等内容进行访问、收集和整理,然后按类别建立索引数据库,让用户在百度搜索引擎中搜索到你网站上的网页。那么baiduspider是如何工作的呢?下面SEO小编带你了解一下!
首先,baiduspider要爬取一个网页,首先要找到被爬取的门户,然后蜘蛛沿着门户的URL进行分析和爬取,这就涉及到了爬取策略。baiduspider的工作原理是这样。
1、baiduspider按照一定的规则抓取网页。百度蜘蛛跟随网页内部链接从一个页面爬行到另一个页面,通过链接分析不断爬行访问,抓取更多页面。百度抓取网页后,需要提取关键词,建立索引,同时分析内容是否重复,判断网页质量,网站的信任度。经过分析,只有符合要求的才能提供检索服务。
2、baiduspider会将下载的网页放入补充数据区,再通过各种程序计算后放入检索区,这样就形成了稳定的排名。所以只要下载的东西都能通过指令找到,补充的数据是不稳定的,在各种计算的过程中有可能丢失K。检索区的数据排名相对稳定。百度目前是将缓存机制与补充数据相结合,正在向补充数据转变,这也是目前百度收录困难的原因。
3、baiduspider抓取页面时,首先从起始站点(即种子站点指的是一些门户站点)优先开始抓取。深度爬取的目的是爬取高质量的网页。该策略由调度计算和分配。baiduspider只负责抓取,权重优先是指优先抓取反向链接较多的页面。这也是一种调度的策略。一般网页抓取40%是正常范围,60%算很好,100%不太可能。
百度各个产品对应的user-agent:
网页搜索:Baiduspider
无线搜索:Baiduspider
图片搜索:Baiduspider-image
视频搜索:Baiduspider-video
新闻搜索:Baiduspider-news
百度搜藏:Baiduspider-favo
百度联盟:Baiduspider-cpro
商务搜索:Baiduspider-ads
不想被baiduspider访问如何做:
Baiduspider遵守互联网机器人协议。你可以使用robots.txt文件完全禁止baiduspider访问你的网站,或者禁止它访问网站上的部分文件。
想被百度索引但没有被保存快照:
Baiduspider遵守互联网meta robots协议。可以利用网页meta的设置,让百度显示只对该网页建立索引,而不在搜索结果中显示网页的快照。因为更新搜索引擎索引数据库需要时间,如果你的网站的索引信息已经在数据库中建立,可能需要两到四周的时间更新才能生效。