24小时咨询热线13533390539
当前位置:网站首页 > 新闻资讯 >SEO优化 > 蜘蛛爬取过程与结果你清楚么
蜘蛛爬取过程与结果你清楚么
日期:2012-03-08     浏览:1441     作者:搜浪君
关键词:搜索引擎Spider

搜索引擎Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反 映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万*几十亿的网页索引,数据量达到几千 G 甚*几万 G。但即使*大的搜索引擎建立超过 20 亿网页的索引数据库,也占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在 70%以下。
人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。
使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件类型(如 Flash、script、JS,某些动态网页及 Frame、数据库);没有主动登录搜索引擎而且没有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为是劣质网页而不抓;因为色情、反动、spam 等问题而不抓的非法网页;需要输入用户名、密码方可打开的网页;网站用 robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网页;go-pher、newsgroups、Telnet、np、wais 等非 http 信息的网页。
任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。 这些网页通常由 CGL、PHP、ASP 等程序产生,技术上较先进,但不适合搜索引擎的“蜘蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,但相当 一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明确表示不保证检索全部的动态网页。


返回列表
联系方式
公司固话: 020-85557485/85675730
销售电话:13922395952(黄经理)
销售电话:13533390539(郭经理)
售中客服:337604623(QQ)郭小姐
售后客服:2101996011(QQ)郑小姐
微信公众号
网站首页 业务热线 提交需求 官方微信