基于语料库的联合短语歧义结构分析文献综述
2020-04-14 16:20:05
(1)研究背景及意义
语言研究始终随着研究对象——语言的发展而不断发展。从历时的角度看,语言的本体内容——语音、词汇、语法逐渐发展,其发展的动因,除了语言的内部要素的相互作用,还离不开社会、心理等外在要素的推动。
纵观语言学史,从古老的语文学时期始,学者就把语言的研究与外在的因素相联系,但不成体系。而在二十世纪的语言学浪潮中,索绪尔创建结构主义语言学,区分了语言和言语、语言的共时研究和历时研究、语言的内部因素和外部因素,意识到言语的重要性,语言与言语相互联系,言语先于语言之前,但因为技术的限制,个人的、具体的、临时的、无限多变的言语难以被记录下来而加以分析。
而后,以乔姆斯基为代表的转换生成语言学派异军突起,其批判结构主义,倡导理性主义,以人的语言能力为研究对象,认为语言学家的研究不是去研究大量杂乱无章的言语事实等行为数据,进一步割裂语言和言语的关系。
在这两大学派之中,语料库语言学通过大量的语料文本,用数据统计的实证手段来进行语言研究,根据统计学原理把语言的语料按一定原则抽样存入计算机,其包含大量的言语事实,将语言与言语统一起来,并且,随着计算机的发展,语料库的应用又促进其他学科,如词汇学、语法学的发展。语料库语言学的应用研究成为近年来不少学者的研究热点。
目前,语料库语言学的发展为中文信息处理提供理论及应用层面上的支撑,中文信息处理经过字处理、词处理的阶段,而句处理的发展则有待完善,句处理要是针对句子的结构分析、语义分析等,其基本规则建立在短语的规则之上。而短语的歧义结构影响句法分析,成为中文信息处理的一大难题。
本文通过归纳总结前人研究的短语歧义结构类型,结合联合短语的特点,借助语料库验证分析联合短语的歧义结构,从而为计算机正确识别联合短语提供研究材料。
(2)国内外研究情况
国内不少学者对现代汉语歧义进行分析,在本体语言学分析方面,吕叔湘、朱德熙(1952)谈到汉语歧义现象,认为歧义是一句话有两种讲法,属于表达上的毛病,并举出实例来例证,但未对现代汉语的歧义结构进行系统研究。赵元任(1959)探讨了歧义的界定、分类、成因、分化、歧义消解和歧义度等问题,开始现代汉语的歧义结构的系统研究。黄国营(1985)对歧义格式进行了最为详尽的归纳,通过形式化手段归纳出一百多种现代汉语短语的歧义格式。尽管学者们对现代汉语短语的歧义进行了详细的描写与解释,但仍然缺乏基于大量语言实例的短语歧义分析来指导计算机进行句处理,而冯志伟(1995)提出“潜在歧义论”,涉及计算机层面的歧义结构分析,以形式化手段,辅助计算机进行歧义短语的自动处理。
虽然学者们针对现代汉语短语的歧义结构分析的成果显著,但目前对联合短语歧义结构的系统研究较少,在本体语言学方面,联合短语的结构分析主要是针对并列短语,吕叔湘(1982)认为联合短语和并列短语是上下位关系,并列短语具有联合短语的部分特征,并列短语的各部分语法地位平等,在句子里表达同一的语法功能,但只是联合短语内部的逻辑关系之一。关于联合短语的构成,储泽祥(2003)讨论了异类词联合短语和同类词联合短语的构成方式和特点。通过以上学者对联合短语的本体分析,为计算机处理提供理论指导,此外,詹卫东(2015)从语言学为中文信息处理提供支持的角度,对现代汉语并列短语结构规则的形式化描述、结构歧义格式的类型分析及排歧策略等方面进行了研究,进一步解决了联合短语自动识别的问题。