判决文书钟的金额项提取系统毕业论文
2021-07-12 22:13:25
摘 要
新中国成立到现在,我国的法律体系日益完善,国家更是将依法治国作为国家发展的重要方略,因此,在法律判决中,更要遵循公平公正的原则,而要做到公平公正,就需要有一个可供参考的尺度,这个尺度,需要的不仅仅是某一次判决中的数据作为参考,只有通过大量的参考数据,才能够得到准确不失偏颇的判决结果。
文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。
本系统是文本挖掘的一种,使用了模式识别建立提取规则进行文本挖掘,这种方法可以提取文本中特定的数据,再通过特定数据进行定位,达到提取特定数据对应的自然语言描述的效果。
Abstract
Since the new China had founded, the legal system of our country is improving day by day. Our state took the law as an important strategy of our country’s development. Therefore, during the legal judgment, it is necessary to obey the principle of fair, and if we want fair, we need more than one data in a judge as a reference, only through a large number of reference data,can we get accurate results.
Text mining is a process of extracting effective, novel, useful, understandable, and spreading valuable knowledge in a text file, and using these knowledge to organize the information better .
By the end of 1998, the first implementation of the national key research and development plan clearly pointed out that text mining is an important part of the image, language, natural language understanding and knowledge mining.
This system is a kind of text mining, using the pattern recognition to establish extraction rules to do text mining, this method can extract specific data in text, and then we use the specific data to fix the position, to achieve the goal of extract natural language corresponding to the specific data.
关键词:数据提取、文本挖掘、模式识别、正则表达式
目录
1.绪论 2
1.1课题研究的背景和意义 2
1.2课题研究的现状 4
1.3本文的主要工作 5
1.4论文结构 5
2.特征数据提取综述 5
2.1非结构化数据 5
2.2数据提取 6
2.3.1决策理论方法 6
2.3.2句法方法 6
2.4文本挖掘的过程 7
2.5系统设计中所面临的主要问题 8
2.6相关技术方法 8
2.6.1.csv文件的读取与写入 8
2.6.2正则表达式 8
2.6.3金额数据的大小写转换 9
2.7本章小结 9
3.金额类别提取设计 11
3.1类别内容分析 11
3.2中文分词 11
3.2.1中文分词 11
3.2.2中文分词工具 11
3.2.3中文分词算法设计 12
3.3本章小结 12
4.系统设计与实现 13
4.1总体设计 13
4.1.1系统设计阶段 13
4.1.2结构设计阶段 13
4.2设计实现 14
4.2.1数据源 14
4.3系统运行结果 14
4.4实验结果分析 15
4.5本章小结 15
5.结论 16
5.1总结 16
5.2展望——拓展与延伸 17
致谢 18
参考文献 19
1.绪论
1.1课题研究的背景和意义
新中国成立到现在,我国的法律体系日益完善,国家更是将依法治国作为国家发展的重要方略,因此,在法律判决中,更要遵循公平公正的原则,而要做到公平公正,就需要有一个可供参考的尺度,这个尺度,需要的不仅仅是某一次判决中的数据作为参考,只有通过大量的参考数据,才能够得到准确不失偏颇的判决结果。
每一次法律判决的过程中,都或多或少会涉及到金额方面的处罚,但是对于每一份判决文书来说,涉及到金额处罚的内容十分少,但是每次判决中涉及到金额上的处罚又几乎是一件不可避免的事,因此,法务人员查阅起这方面的参考资料,十分不方便。
维托可·迈尔-舍恩伯格在《大数据时代》中说,数据必将继人力和自然资源成为重要的战略资源,各巨头企业也都意识到其中巨大的经济价值。在未来的生活中,对"大数据”地高效利用,可以推动经济的发展,促进多个行业的崛起,能创造出无数机遇。下一代成功的企业必然要围绕数据,未来属于那些谁发现如何成功地收集数据,并使用这些数据的公司。而大数据的运用,也不仅仅是在某个行业或者领域内的崛起,而是在所有领域全面铺展开,在医疗、法律、教育等看似与大数据关联并不密切的领域也是如此。
数据提取的定义就是从原始数据中抽取感兴趣的数据的过程。原始数据即为待处理的大数据,而感兴趣的数据则是需要提取出来的目的数据,被提取出来的目的数据能为我们所用,这也是数据提取的意义所在。
数据挖掘从通俗的意义上来讲就是在数量较大的数据、信息中通过设计算法找出有意义的模式,从而得到目标数据的过程。数据挖掘通常与计算机科学有关,它设计到的知识有专家系统、模式识别、情报检索、在线分析处理、机器学习、统计学等。需要是发明之母。最近,数据挖掘在信息产业界的关注度极高,究其原因,主要是因为存在大量的数据,能够被广泛使用,这些数据能够并且有需要被转换成对生产生活有用的信息和知识。而这些知识被获取之后,在很多领域都能够被应用到,包括法律文献处理,医疗数据分析,市场动向分析等。
数据挖掘使用了来自多个领域的科学思想,包括:(1) 统计学中经常被提到的抽样、估计和假设检验,(2)在人工智能、模式识别和机器学习领域十分常用的搜索算法、建模技术以及学习理论。不仅如此,数据挖掘发展的过程中,也在很短的时间内吸收了来自各个不同领域的科学思想,包括最优化、信息论、信号处理、进化计算、可视化以及信息检索等。很多其他的领域也在数据挖掘这一领域起到了很好的支撑作用。尤其需要提到的是,需要数据库系来给数据挖掘提供存储、索引以及查询处理上的支持。在处理大规模数据集时,并行计算技术的性能显得尤为重要。在需要处理海量数据,并且这些海量的数据集不能够集中到一起处理的时候,分布式技术就显得尤为重要了。