论文无忧网提供:计算机毕业论文范文|计算机毕业设计|计算机毕业论文
栏目导航 ASP JSP .NET VB6.0 JAVA VC VF DELPHI PB 计算机网络 计算机科学与技术 PHP 安卓APP 其他 C# 代写论文
当前位置: > 计算机 > JAVA >

JAVA基于双向最大匹配算法的自然语言分词器(原创)

摘  要

在中文搜索引擎中,中文分词的作用显而易见,其结果直接影响到搜索引擎的性能。当前的中文分词主要有三类方法:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。中文分词发展过程中遇到最大的问题是歧义识别和新词识别。中文分词的未来发展方向既要解决这类问题,使得达到较高的分词正确率,又要进行行业分词不断拓展中文分词的应用范围,本文主要研究分词中的最大匹配算法。
关键词:中文分词;双向匹配;子字典机制



目  录
摘要.............................................................................................................................Ⅰ
ABSTRACT.................................................................................................................Ⅰ
1引言.............................................................................................................................1
1.1 研究背景、目的及意义...........................................................................................1
1.2 中文分词的现状....................................................................................................1 http://www.paper51.com
1.3 本文的主要创新点................................................................................................3
1.4 课题任务和论文结构............................................................................................3
2 中文分词简介...........................................................................................................4
2.1 中文分词问题描述.................................................................................................4
2.2 中文分词难点分析................................................................................................4
2.3 主要的分词算法....................................................................................................6
3 双向匹配算法和子字典机制...................................................................................8
3.1双向匹配算法.........................................................................................................8
3.2 基于词典的分词算法的词典机制......................................................................13 paper51.com
3.3 小结......................................................................................................................16
4 中文分词系统的设计与实现.................................................................................17
4.1 系统设计与原则..................................................................................................17
4.2 中文分词系统的设计..........................................................................................17
4.3 中文分词结果的实现..........................................................................................19
5 测试.........................................................................................................................24
5.1 测试环境和测试方案..........................................................................................24
5.2 中文分词系统评价标准......................................................................................24
5.3 实验结果和结论..................................................................................................24 http://www.paper51.com
结论.............................................................................................................................27
致谢.............................................................................................................................28
参考文献.....................................................................................................................29

1 引言
1.1 研究背景、目的及意义
随着科技的发展,互联网的时代已经到来,信息技术在发生着巨大的变化。互联网上的信息每年都在以几何级数在增长。如何在这个巨大的信息库中锁定自己需要的信息,已经成为人们越来越关注的问题。搜索引擎就是在这个背景下应运而生,并且迅速发展起来。作为中文搜索引擎的重要组成部分,中文分词的结果的好坏直接影响着搜索引擎用户的体验度。
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 内容来自www.paper51.com
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上个世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度、中搜等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

------分隔线----------------------------
联系方式