24小时咨询热线13533390539
当前位置:网站首页 > 新闻资讯 >搜浪观点 > 蜘蛛爬行策略
蜘蛛爬行策略
日期:2012-07-30     浏览:1662     作者:搜浪君
关键词:蜘蛛爬行策略

首先我们来了解一下什么是深度优先? 什么是广度优先?有什么用?


深度优先顾名思义就是让网络蜘蛛尽量的在抓取网页时往网页更深层次的挖掘进去 讲究的是深度!也泛指: 网络蜘蛛将会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接!深度优先的优点是:网络蜘蛛程序在设计的时候相对比较容易些。深度优先的缺点是:每次爬行一层总要向"蜘蛛老家" 数据库访问一下。请问有必要还要爬下一层吗! 爬一层,问一次.... 引用一句高人的话 如果一个蜘蛛不管,不断往下爬 很可能迷路更有可能爬到国外的网站去.. 本来目标是中文网站 因为IP的问题 国外IP做了中文站的话.... 就容易去别人"老家"了..这样不仅增加了系统数据的复杂度更是增加的服务器的负担 我想没有一家搜索公司会愿意这样吧,除非脑子"秀"了 。广度优先,蜘蛛在一个页面上发现多个链接的时候,不是顺着一个链接一直前行的,而是把页面上所有*层链接都爬完,然后沿着第二层页面上发现的链接爬向第三层。广度爬行的优点是:广度相对深度。对数据抓取更容易控制些! 对服务器的负栽相应也明显减轻了许多! 爬虫的分布式处理速度明显提高! 所以,这也是广度优先为我们普遍人所用的原因。虽然只要有足够的时间,蜘蛛可以爬行完所有的页面。但是因为互联网的页面实在太多了,每天建立的新站又很多,蜘蛛不可能兼顾到每一个网站。所以你得提升自己网站的权重,一般权重低的是只爬行首页 ,不像a5这种大站一样,蜘蛛是一直守在那里的。从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,没有什么东西是无限的,蜘蛛的带宽资源和蜘蛛的时间也是一样都是有限的,也不可能爬完所有页面。实际上*大的搜索引擎也只是爬行和收录了互联网的一小部分。


本站原创文章,转载请注明出处!


广州网站推广:http://www.soola.


返回列表
联系方式
公司固话: 020-85557485/85675730
销售电话:13922395952(黄经理)
销售电话:13533390539(郭经理)
售中客服:337604623(QQ)郭小姐
售后客服:2101996011(QQ)郑小姐
微信公众号
网站首页 业务热线 提交需求 官方微信