24小时咨询热线13533390539
当前位置:网站首页 > 新闻资讯 >SEO优化 > 基于文本分析应用的详解
基于文本分析应用的详解
日期:2012-03-12     浏览:1395     作者:搜浪君
关键词:基于文本分析应用的详解

基于词意的文本分析是指运用词意对文本内容进行分析,得到文本内容的重点要素。文本分析是一种词意的自学习技术,是与整个技术相结合的独特分词技术。
一、文本分析技术特点

由于词意库是自学习形成,因此不需要预先设置庞大的词典库,而且*重要的是,学习是持续性的,系统对词意的理解会随着外界的变化而变化,并能不断增添新创词汇。
由于同一个词,对于不同的人,词意可能是不同的,因此可以根据每个用户的习惯形成自己的子词意库,可使用子词意库对文本进行二次分析,产生个性化结果。
系统的学习分为两种方式:
知识学习:系统自动在互联网上进行,无特定目的地吸收网上各种信息,并对收集到的信息进行分析后作为知识保留,整个过程无需人工干预,可* 24 小时不间断地进行。
经验学习:每一次用户的具体使用,其结果也将作为经验保留下来,并对知识学习的结果进行修正。
分词技术不追求100%的准确,而讲究实用、快速,不依赖于庞大的词汇库或知识库, 因此可以做到不针对特定领域,可解决人名、地名、新出现的词汇等的分词,这些问题是传 统分词方法难以解决的,尤其是新词汇的分词,几乎是一个世界性的难题。由于整个核心算法并非基于字、词典及语法,而是从模仿人类对语言文字的理解入手,比如一个儿童并不懂得查字典和语法,但能够听懂别人说的话,因此对核心只要稍作修改便 能够用于英语及其它文字语言,就好象一个婴儿,你把他放到哪个国家,他就能学会当地的语言。
二、文本分析应用
1、相关性搜索

相关性搜索是根据关键词的词意,与文章提取的重点要素进行比对,以此生成搜索结果, 这将是真正基于内容分析的搜索结果,而并非仅仅是简单的全文检索。 比如在一篇计算机相关的文章中,可能计算机这个词出现得很少、甚*根本没有,而大量出现的可能是软件、硬件、程序、内存等词汇,也有可能在文章中不叫“计算机”而叫“电脑”,当使用“计算机”这个词汇进行检索时,系统可分析出从文章中提取的重点要素与“计算机”这个词是密切相关的,因此也会将其放入检索结果。 另外可以避免将错误结果放入,比如用“苹果”搜索,却把有关“苹果色素”的文章放 在了搜索结果中,而“苹果”和“苹果色素”完全是两回事。
2、个性化搜索
根据用户爱好和习惯,自动搜索其所需要的内容。通过某种技术,可以从用户所浏览页面中分析出用户的爱好和习惯,进而在用户进入网站时自动将他*喜欢的内容呈现在他的眼前,而且这种分析也是持续性的,可以即时掌握用户习惯和爱好的变化。
个性化搜索*大的问题是用户嫌麻烦,不愿意用。而且习惯和爱好是发展变化的,这种变化一般是潜移默化的,用户自己也难以查觉而去修改所设置的关键词,即使查觉,也往往会忘记和懒得去修改。
3、其他应用
A. 自动摘要    由于使用了词意的理解,使得摘要的准确性大大提高,而且因为核心算法并非针对某个特定领域,所以应用的范围也是全领域的。
B. 自动分类    比如输入一个产品,电脑系统能够自动将其归到一个产品类录下面。这 对搜索引擎、电子商务、供求信息等网站也是非常有用的,然而这也是一个世界性的难题。 目前一般都是采用人工来进行分类,比如搜狐就曾在网上发动大量的志愿者对其搜索引擎进 行分类整理,但可想而知这样做在成本、效率、准确度等方面都难以满足要求。
C. 应用核心技术开发出其它特定功能的软件。


返回列表
联系方式
公司固话: 020-85557485/85675730
销售电话:13922395952(黄经理)
销售电话:13533390539(郭经理)
售中客服:337604623(QQ)郭小姐
售后客服:2101996011(QQ)郑小姐
微信公众号
网站首页 业务热线 提交需求 官方微信