学术论文作者关系挖掘及可视化的研究与实现文献综述
2020-04-15 09:36:46
1.1目的及意义
人工智能等技术的高速发展使得信息处理和加工日益便捷,借助先进的自然语言处理技术、Web技术可挖掘学术论文作者间的复杂关系,从而能帮助其他研究人员更加便利检索到相关研究领域的研究成果。本课题将在知网中选取一个专业领域,通过Web链接分析和自然语言分析等技术,获取学术论文作者间的关系;在此基础上采用信息处理技术对所获取作者关系进行可视化处理。
1.2国内研究现状
通过知网对作者关系,论文作者关系的研究最早在1997年,是《中华微生物学和免疫学杂志》中的文献《论文作者现状分析》,而通过该文的参考文献可以发现,早在1991年就有一篇文章《图书馆学期刊的论文作者合作度》中,有关于论文作者的关系的研究;在知网中关于论文作者的关系研究仅有21篇,而对其他作者关系的研究很早就开始进行了,目前,有大量的学者会对经典著作中的人物进行分析,其中就包括了人物间的关系,通过人物间的关系可以更加清晰的了解到整本著作中的人物线剧情线和情感线;类比于著作中的作者关系,论文的作者关系可以明确的展示出某个领域中的人物线和研究线,这使得其他研究人员可以更加便利的检索到相关研究领域的研究成果。
1.3国外研究现状
通过Google学术和IEEE中的论文查询,Google学术中并没有很具体的关于学术论文作者的研究,而IEEE中由少量的关于论文作者的研究报告;通过武汉理工大学图书馆的外文查询,有一部分的生物学文章中含有论文作者的关系研究,如2015年的文章《Impact of Otolaryngology theses intheir authors' scientific production》是最近的关于论文和作者的关系研究。而更早时期的论文就很少有国外关于论文作者的研究。
对比于国内外的研究现状,国内和国外目前对论文作者的研究主要在于著作中人物关系的分析,或者是其他领域的作者的研究,而在论文作者的关系分析就没有那么详尽,主要原因有以下两点:一是在于国内外的论文搜索工具有足够的能力去查询到研究人员想要的内容;二是研究人员对论文的研究更多的放在了论文的内容而把论文作者的权重降低了。这可能导致一个问题,当查询到的论文数量过于庞大的时候,对于论文的检索就不再那么便利,特别是需要查询到某个领域中的小范围,更多时候需要的是对论文关系的细化,这个时候通过对论文作者的整理研究,可以发掘到某些作者是同时对某个小领域有着共同研究方向的,这使得学术论文作者关系的研究更有必要。所以本次设计的主要的意义就在于,通过学术作者关系的研究,方便其他研究人员更快的检索到相关研究领域的研究成果。
{title}2. 研究的基本内容与方案
{title}本次毕业设计的基本内容为,从知网中的某一个领域中获取到足够的文献,把这些相关文献的作者及其有关的作者建立联系,将这些关系进行整合,可以得到多种作者的关系,其中又可以分为主要的关系和次要的关系,把这些关系通过信息处理技术来实现可视化就是我们的结果。
本次设计的基本内容为:
1. 利用Python爬虫技术结合算法,将知网网页通过url来进行爬取,获得该篇论文的html内容,这些内容是大量的非结构化的数据;