中文智能分词系统设计与实现开题报告
2021-12-19 18:37:57
全文总字数:1524字
1. 研究目的与意义及国内外研究现状
本课题的目的是开发一个Java的、主要应用于自然语言处理的、高精度的中文分词系统,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别等领域,支持行业词典、用户自定义词典。中文分词技术是中文信息处理领域的基础研究课题。而分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。其中,中文分词由于中文结构的特点,与西方国家文字相比更难于处理。汉语的词汇与词汇之间没有显式的边界,汉语的分词需要通过计算机对文字内容的分析,来达到切分词汇的目的。中文分词已成为计算机处理汉语面临的首要基础性工作。只有提高中文分词系统的准确率和工作效率,才能使自然语言处理系统稳定高效地工作。本课题的完成为研究和完善中文分词算法打下了基础。
国内外研究现状
近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。但是,从实用化、效率,功能角度来看,都还不能满足实际需求。中文文本分词算法从世纪年代以来就一直是一个研究热点,由于中文语言的复杂性使之一直处于发展阶段。目前中文分词算法也是各有优劣,很难绝对地比出高低,所以,中文分词的算法更多时候需要同实际的应用相结合。到目前为止,中文分词包括三种方法:基于字符串匹配的分词、基于理解的分词和基于统计的分词。
2. 研究的基本内容
本课题旨在设计一个基于词库的机械分词算法与基于统计的分词算法相结合的中文智能分词系统,并在时间空间和准确率上进行改进,提高算法的实用度。针对中文分词系统以及算法,着重研究基于词库的机械分词和基于统计分词相结合的算法,结合两种算法的优点,力求做到在保证正确率的前提下,高效率地进行分词工作。并且开发实现一个JAVA的中文智能分词系统,通过本系统对将新算法与其它算法进行比较。
3. 实施方案、进度安排及预期效果
实行方案:结合相关基于字典的分词和基于统计的分词,利用java实现一个中文智能分词系统。
进度见下表:
完成步骤 | 进度 | 起止日期 |
1 | 查阅研究相关资料,学习相关算法 | 2016.1.15- 2016.2.10 |
2 | 完成对分词算法的整体规划设计,在导师意见基础上进行修改 | 2016.2.11- 2016.3.1 |
3 | 完成对分词算法的设计,每星期不少于1次向导师汇报进度,有疑问请导师答疑 | 2016.3.2- 2016.4.15 |
4 | 完成毕业论文写作 | 2016.4.16- 2016.4.30 |
5 | 完成毕业论文修改 | 2016.5.1- 2016.5.10 |
6 | 完成答辩PPT,准备答辩。 | 2016.5.11- 答辩 |
4. 参考文献
1.黄昌宁,赵海.中文分词十年回顾.中文信息学报,2007,3:8-192.费洪晓,康松林,朱小娟,谢文彪,基于词频统计的中文分词的研究.计算机工程与应用,2005,7:67-68 1003.JIANG Fang,LI Guohe,YUE Xiang,WU Weijiang.Segmentation of Chinese word based on method of rough segment and part of speech tagging.Computer Engineering and Applications,2015,6:204-207 265.