当前位置:网站首页 > 新闻资讯 >SEO优化 > 猜测搜索引擎抓取文章内容的过程
猜测搜索引擎抓取文章内容的过程
日期:2011-12-10     浏览:1231     作者:搜浪君
关键词:搜索引擎优化,网站优化,优化网站

猜测搜索引擎抓取文章内容的过程


我们其实学过很多相关搜索引擎优化的知识,网上也见过相关内容,针对搜索引擎工作原理,分爬行和抓取,再预处理,*后得出排名。


首先,先进行分词,中文分词的方法基本上有两种,一种是基于词,一种是统计,中文的词与词是没有分隔符的,所以一般一个句子中所有字与词是连在一起的,搜索引擎就需要判断那些词是为一体的。


其次,针对文章,搜索引擎对文章内容进行文字提取,也就是会获取文章的内容,去除掉代码,去掉一些停止词,如,的,地,得,等这些无关词。这些词也叫无意义词。然后消除噪声,也就是根据html标答对页面分块,区分出页头,导航,正文,页脚,广告等区域。


再者,针对提取出来的内容进行去重,也就是去掉重复性的内容,也就是选取*具代表的关键词,通过实验表面,通常选取十个关键词。


通过这几个步聚,就可以得到搜索引擎抓取文章的经过的。只不过这个也是小威在这里的理解,希望网站优化的时候大家多注意一些细节,根据这些步骤优化网站。祝愿大家的网站都有一个好排名。


 

返回列表
联系方式
公司固话: 020-85557485/85675730
销售电话:13922395952(黄经理)
销售电话:13533390539(郭经理)
售中客服:337604623(QQ)郭小姐
售后客服:2101996011(QQ)郑小姐
微信公众号
SEO优化名词解析
网站首页 业务热线 提交需求 官方微信