当前位置:网站首页 > 新闻资讯 >SEO优化 > 中文分词发展对中国互联网发展意义重大
中文分词发展对中国互联网发展意义重大
日期:2012-03-08     浏览:976     作者:搜浪君
关键词:中文分词

要想说清楚中文分词的意义和作用,就要提到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。再反观我们人类的语言中,“词是*小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的*步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以*自然语言理解,*终达到智能计算的*高境界,实现人类的梦想。

从现阶段的实际情况来看,英文已经跨越了分词这一步,也就是说在词的利用上已经先一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中文,究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,我们才有希望赶上并超过英文在信息领域的发展,所以中文分词对我们来说意义重大,可以说直接影响到使用中文的每一个人的方方面面。


中文分词到底对搜索引擎有多大影响?

对于搜索引擎来说,*重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,*重要的是把*相关的结果排在*前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对 搜索结果的相关度排序。在现有三个中文搜索引擎上做测试,测试方法是直接在Google (http://www.google.com)、百度(http://www.baidu.com)、中搜(http://www.zhongsou.com) 上以“和服”为关键词进行搜索:

在 Google上输入“和服”搜索所有中文简体网页,总共结果 507,000 条,前 20 条结果中有 14 条与和服一点关系都没有。在*页就有以下错误:
“通信信息报:瑞星以技术和服务开拓网络安全市场”
“使用纯 HTML 的通用数据管理和服务- *- ZDNet  ...”
“陈慧琳《心口不一》化妆和服装自己包办”
“外交部:中国境外领事保护和服务指南(2003 年版)  ...” “产品和服务”
等等。*页只有三篇是真正在讲“和服”的结果。

在百度上输入“和服”搜索网页,总共结果为 287,000 条,前 20 条结果中有 6 条与和服一点关系都没有。在*页有以下错误:
“福建省晋江市恒和服装有限公司系独资企业” “关于商品和服务实行明码标价的规定”
“青岛东和服装设备”

在中搜上输入“和服”搜索网页,总共结果为 26,917 条,前 20 条结果都是与和服相关的网页。

这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。Google 的中文分词技术采用的是美国 Basis Technology(http://www.basistech.com)公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。


返回列表
联系方式
公司固话: 020-85557485/85675730
销售电话:13922395952(黄经理)
销售电话:13533390539(郭经理)
售中客服:337604623(QQ)郭小姐
售后客服:2101996011(QQ)郑小姐
微信公众号
SEO优化名词解析
网站首页 业务热线 提交需求 官方微信