科研协同创新平台中学者主题标签抽取研究文献综述
2020-04-29 19:57:17
一、选题背景 目前中国各个高校的数据库对教师的主题标签缺乏有效的提取手段。
好的主题标签能够明确该学者的研究领域,一来能够有效解决学者同名的问题;二来学生、学院能够快速了解到该学者的研究方向,前者可以更方便地挑选硕博导师,后者可以方便统计所属的学者信息,便于分配科研项目、评选、评优等。
二、选题现状分析 (1)当前存在的问题 当前现有的标签大多是人为赋予的,而人为赋予的标签在准确性、概括性上存在一定的疑问,并且人为赋予标签需要评判人对所有已有的目标学者的信息进行了解、总结,才能最后确定其合适的主题标签。
除此之外,目前常用的标签提取方法是无监督的聚类分析算法。
在无监督的标签聚类中, 对标签质量的管理缺乏有效的控制。
不同质量的标签对最终的标签聚类结果会产生哪些影响, 低质量标签的混入是否仅仅只是降低标签聚类效果, 这些都是值得研究和探讨的问题。
常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响。
(2)研究现状 好的标签提取需要两个方面:1、作为主题标签的词语或短语本身的概括性、独立性强。
2、用于提取主题标签的算法的性能能够准确地将目标学者的主要主题标签提取出来。
主题自动提取是自然语言处理中的一个重要分支,在文本挖掘和信息检索领域中有着非常重要的用途。