语义相似度计算方法研究文献综述

2020-04-23 19:37:31

1．目的及意义
随着计算机的广泛应用和Intemet的普及，各类信息都在急速地膨胀。信息量的增长给人们带来了方便，同时也带来了信息查找较为困难，人们越来越希望能够对词义归类以便进行科学研究、商业决策和企业管理，带来经济效益或社会效益。在现实世界中，词语是最重要的信息载体。因此对词义相似的处理和分析成为当今数据挖掘和信息检索技术的热点之一。语义是自然语言理解的基础，是对客观世界的解释，语义也可以简单地看作是数据所对应的现实中的事物所代表的概念的含义，以及这些含义之间的关系，是数据在某个领域上的解释和逻辑表示词义相似度计算技术有很多，其中重要的一个技术就是文本相似度，它在文本聚类、Web智能检索、问答系统、网页去重、自然语言处理等很多领域中有着重要的应用。自然语言的词语之间有非常多的关系，在实际应用中，有时需要用相似的关系用一种简单的数量来度量，这就是语义相似度。语义相似度研究离不开语义学理论的不断发展，也离不开自然语言的计算机处理研究的不断深入，更离不开语义分析。为了深入研究语义相似度，其语义分析必须从语法层面过渡到语义层面，深入展开其词义分析与词间语义关系的分析。
词语的语义相似度计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文的信息,运用统计的方法进行求解。对于前一类基于树状层次结构的计算语义相似度方法的研究已经比较成熟,早期国外给出了自己的比较合理的语义相似度计算公式和方法，国内这方面起步较晚,但发展很快,后来者做了很多补充性和改进性的工作，现在主流思想是本体是对概念模型的明确的、形式化的、可共享的规范。概念是对词语共性的抽象提取，表达的语义信息更加准确。目前基于领域本体的语义相似度计算的方法主要是利用本体上下位分层结构进行计算的，其中选取的影响因子分析并不全面，单个影响因子计算结果不够接近真实的相似度值。在计算单个影响因子时，值越接近1相似度越大，值越接近0，相似度越小。
（1）词语相似度研究现状。目前，文本相似度研究多数是以词语相似度研究为基础，国内外学者对词语相似度进行了大量的研究，提出了很多成熟的计算方法，比如国内学者提出的基于属性论的计算方法、基于部件的计算方法、基于本体的计算方法、基于词共线的计算方法与基于事件的计算方法；国外学者提出的基于向量空间模型的计算方法、基于搜索引擎的方法、基于构成字符的相似度计算方法、基于词典注释的方法、基于 Word-Net 等词典的计算方法和基于大规模语料库统计的方法。上述的方法可以看出在词语相似度计算层面上其算法已经比较成熟，其研究在自然语言处理、机器翻译、数据挖掘、文本聚类、信息检索、信息过滤等领域已经得到广泛的实际应有。
（2）句子相似度研究现状。对句子的相似度研究主要偏向于国外学者，句子基本上是英文字母构成，因此大部分句子相似度研究主要是针对字符串的相似度计算，如基于编辑距离以及其扩展算法的相似串模糊匹配算法；MCWPA 字符串快速比较算法以及 LCS 算法；而在国内，由于汉语本身的特点，词语、句子、段落之间的结构非常复杂，因此对汉语句子的相似度计算主要是以词语为基础进行的，通过词语相似度的加权组合得到句子相似度，比如在词汇相似度的基础上，通过对句子进行分词得到不同的词性集合，进而为不同词性的词赋予与之对应的权重来综合计算其句子的相似度。
（3）段落及段落以上形式相似度研究现状。从目前的研究现状来看，由于段落及段落以上的文本结构复杂，涉及到段落的分句处理，段落的语法结构，文本的特征提取，加之文本的数量规模大，因此对段落以及段落以上的文本相似度计算研究相对比较少。但是在国内研究的学者还是存在，对文本相似度的研究，通过对基于语料库、基于词典的文本相似度研究与基于《知网》的语义相似度研究的分析处理，通过权衡选择了基于《知网》的语义相似度研究，并把语义理解的情感倾向引入到文本相似度的计算当中，对句子、段落及段落以上文本进行了相似度计算。

{title}

2. 研究的基本内容与方案

{title}基本内容：
本文主要根据语义相似度计算理论的知识，特别是在文本语义相似度方面的深入研究，对原有的传统算法提出改进措施，设计并完成相似度计算系统，主要内容包括以下三个部分：
1.学习研究相似度计算理论，理解语义相似度计算方法的相关概念、文本的中文分词技术、基于 VSM 的文本相似度计算方法，字符串匹配算法等各类算法思想做基本了解，分析各种算法的优缺点、适用特点。
2.重点对基于语义的相似度算法做出研究，分析和学习《知网》的知识库系统，理解对于义原的相似度之间做出优化，并在此基础上加入段落相似度的因素，对于新改进的算法做出有效性的验证。
3.根据算法理论，设计并实现文本相似度系统，介绍系统的组成模块、基本流程、数据结构、结构设计，利用设计系统的特点，选择合适的技术路线和开源框架，完成对各个模块的实现并应用于实际项目中。
技术方案和举措：
Java 语言及平台，Java编程语言是一种简单、面向对象、分布式、解释性、健壮、安全与系统无关、可移植、高性能、多线程和动态的语言，它的风格十分接近于C语言、C 语言，它继承了C 语言面向对象技术的核心，舍弃了C语言中容易引起错误的指针（以引用取代）、运算符重载、多重继承（以接口取代）等特性，增加了垃圾回收器功能用于回收不再被引用的对象所占据的内存空间，使得程序员不用再为内存管理而担忧。Java语言的执行是先将Java源代码编译成为二进制字节码，然后依赖各种不同平台上的Java虚拟机来解释执行字节码，因此Java具有“一次编译，到处执行”的跨平台的特性。Java语言是目前非常流行的编程语言，是一种开源的技术
SQL数据库，在微软公司的 SQL Server 数据库产品系列中，SQL Server 2008 是具有代表性的产品版本，它在 SQL Server 2005 的基础上作出了一系列关键技术的创新，整体改进优化了数据性能，加入了众多新特性，是目前为止该系列中应用最多的数据库系统。在原有的 SQL Server 2005 的基础上，微软从可信性、可持续性、智能性和高效性四个方面对其作了重要的改进，更加利于系统开发，便于数据库管理人员的开发和管理。
SSH 框架应用，J2EE 平台下 Struts、Spring 和 Hibernate三个主流框架的统称，其作用分别是 MVC 框架，轻量级的 IOC 容器和 OP 控制器持久化应用
除此之外，遇到问题也应主动向指导老师请教，查阅资料和借鉴优秀的代码。也要随着时间进行相应的改变，轻微的变动是合理的，不能在一条路上走到黑。
技术路线：
（1）研究出新的相似度计算方法，基于著名的空间向量模型VSM，在不同特征项之间线性无关相互独立的前提下，经过预处理过程提取特征项，统计特征项的频率，建立特征项向量，计算特征项向量的夹角余弦值表示文本相似度大小。选取适当的权重量化，例如TF-IDF权重计算法或其他方法，结合广义空间向量模型GVSM，这个模型弥补了特征项正交，增加空间复杂度，但提高了算法的正确性，还有研究语义索引算法的矩阵思想LSI算法和字符串匹配算法LCS算法，对相似度计算理论方面做初步研究，了解相似度方面的一些基本概念，学习其中较为成熟的计算方法，并提出自己的相似度计算算法，不说改进，但希望能有效进行相似度计算。
（2）设计系统的预处理算法，对添加的系统文本库或者待检测语义都需要进行格式处理，拿文本为例，需要进行分词，可以使用成熟的开源分词软件例如NLPIR汉语分词系统，采用搜索引擎框架例如Lucene对特征项的加权操作，统计文本中特征项的频率和逆文档频率，在预处理过程中，利用分词系统和搜索引擎完成
分词过程并对特征项建立索引，建立文本库，库里包含了文本的基本属性，在预处理过程之后，对特征项属性进行信息保存，以便很多信息在使用时可以直接查询，避免重复计算。
（3）建立知网数据库，首先对知网的一些基础知识进行了解，描述概念的基本单位是义原，义原相似程度很大程度取决于他们之间的语义距离，添加义原节点的深度、改善调节因子和权重计算例如TF-IDF等方式优化算法。利用《知网》的知识结构之后，我们需要对特征项作义原分解，将文本的特征项向量表示转化为文本的义原向量表示，利用新的空间向量实现夹角余弦运算，构建义原相似度矩阵，利用义原向量与义原相似度矩阵，完成相似度计算过程。采用关系数据库表保存《知网》的义原、词汇表等信息，且利用Hibernate框架实现数据持久化操作，需要通过程序实现对《知网》知识库数据的存储与检索。利用Java 语言完成对《知网》词典库中的词汇、义原、词汇义原关系的对象化设计，并对类做注释处理，并把知网库和文本库相关联。
（4）综合计算模块的实现，利用TF-IDF生成文本的特征向量，转化为义原向量，进行义原向量的矩阵、义原相似度矩阵进行乘积运算，计算相似度，用JAVA程序实现矩阵的快速计算，调用Matlab 程序时需要转化两者参数或者用Jama矩阵运算包通过array Times方法直接使用矩阵乘积。
（5）组合各部分形成一个完整的系统，并进行调试。

3. 参考文献

[1] Zhen Y, Zhong X, Li L, et al. AnImproved Algorithm For Conceptual Semantic Similarity In Domain Ontology[C]//Joint International Information Technology, Mechanical and ElectronicEngineering Conference. 2017.

[2] 李昊迪. 语义相似度的混合计算方法. 哈尔滨工业大学, 2013.

[3] 陈二静，姜恩波.文本相似度计算方法研究综述. 《数据分析与知识发现》2017 第6期

[4] 孙润志. 基于语义理解的文本相似度计算研究与实现. 中国科学院沈阳计算技术研究所.2015

[5] 徐德智, 王怀民. 基于本体的概念间语义相似度计算方法研究[J]. 计算机工程与应用, 2007, 43(8):154-156.

[6] 张思琪, 邢薇薇, 蔡圆媛. 一种基于WordNet的混合式语义相似度计算方法[J]. 计算机工程与科学, 2017, 39(5):971-977.

[7] 张硕望, 欧阳纯萍, 阳小华,等. NLPCC-ICCPOL 2016-192 融合《知网》和搜索引擎的词汇语义相似度计算[J]. 计算机应用, 2016.

[8] 位通, 贾仰理, 张振领,等. 一种新的语义相似度计算方法[J]. 聊城大学学报(自然科学版)自然科学版, 2015(2):88-92.

[9] 吴星同, 翁燕, 朱婷,等. 一种改进的本体概念语义相似度计算方法[J]. 电脑与电信, 2015(1-2):20-22.

[10] 杨凡. 浅议语义相似度计算[J]. 今日湖北旬刊, 2015(1).

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码