当前位置:网站首页 > 新闻资讯 >SEO优化 > 我们需要知道蜘蛛爬行原理来了解优化
我们需要知道蜘蛛爬行原理来了解优化
日期:2012-04-08     浏览:1095     作者:搜浪君
关键词:蜘蛛爬行原理

    漂亮的图片,flash,特效等东东并不能吸引蜘蛛来爬行,它是靠庞大的链接过来的。做SEO必须要懂得蜘蛛爬行的原理,然后才能更好的布局和做外链,让蜘蛛爬的更多,更广,更深,首先和大家探讨下蜘蛛爬行原理

一、搜索引擎的抓取算法
搜索引擎工作的*步就是获得互联网上的信息。现在的互联网是如此庞大,信息量每天都在飞速增长,检索和分类将是一项非常巨大的工具,它访问网页上的超链接,像“一传十,十传百–”一样,从少数几个页面开始,逐渐延伸到互联网的其他网页。
1、网络蜘蛛
网络内容抓取器被形象地称为“蜘蛛”,而互联网就是一个蜘蛛忘,蜘蛛就在这张网不断获取信息。
蜘蛛从网站中的某个页面(通常是首页)开始,读取网页的内容,并找到该网页中的链接地址,然后通过它们寻找下一个网页,这样一直循环下去,直到把所有的网页都访问并抓取下来。
每个主流的搜索引擎都有自己的蜘蛛。
2、抓取规则
(1)广度优先和深度优先
在抓取的过程中可以采用两种方式:广度优先和深度优先。
广度优先是指抓取起始网页中链接的所有页面,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有页面以图所示的网页结构为例,蜘蛛的抓取顺序如下:
-从A页面出发,首先抓取BCDEF页面。
-从E页面出发,抓取H页面。
-从F页面出发,抓取G页面。
-从H页面出发,抓取I页面。
-没有发现更多可抓取的页面,抓取过程结束。
广度优先是目前*常用的蜘蛛抓取方式,因为此方法可以并行处理,提高抓取速度。
深度优先是蜘蛛从起始页开始,逐个链接跟踪下去,处理完这条路再转入下一个页面,继续跟踪链接。以下图所示页面为例。蜘蛛抓取顺序如下:
-从A页面出发,抓取F页面。
-从F页面出发,抓取G页面,发现没有更多可链接的页面,于是回到F页面,发现F页面也没有更多的页面链接,于是回到A页面。
-从A页面出发,抓取E页面,从E页面出发抓取H页面,从H页面出发抓取I页面。
-回到A页面,抓取D页面。
-从A页面出发,抓取C页面。
-从A页面出发,抓取B页面。
-没有发现更多可抓取的页面,抓取过程结束。

深度优先的算法一般采用堆栈结构实现,其优点在于设计蜘蛛时对比较容易
seo技术网站优化少不了蜘蛛的爬行而蜘蛛的爬行原理,爬行习惯,从一个链接访问,到所有很多人认为的是搜索引擎的爬行,是越靠近左上角的链接权重越高。其实这个也有一定的误区,链接越靠前也算是蜘蛛越容易爬行,这是对的,但是在与网站的管理网站的分布,布局来说很多方面上没有做到这一点,其中*为流行的div+css是可以实现的,从右到左,从下到上的布局。这个观点也是很不错的,对与搜索引擎蜘蛛的爬行与抓取,习惯与设计都是有一定的优势吧。既然情况是如此的,你有没有注意到很多网站的布局确实没有的情况下你的网站又是什么样。


返回列表
联系方式
公司固话: 020-85557485/85675730
销售电话:13922395952(黄经理)
销售电话:13533390539(郭经理)
售中客服:337604623(QQ)郭小姐
售后客服:2101996011(QQ)郑小姐
微信公众号
SEO优化名词解析
网站首页 业务热线 提交需求 官方微信