生物文献分类系统的设计与实现文献综述
2020-04-24 09:42:14
21世纪生物医学和信息技术的快速发张是的医学信息资源类型多样,数量庞杂,更新迅速。医学文献数量占科技文献总量的20%-25%,居学科文献之首。而相对应的医学科学研究需要对医学文献信息进行检索与分析,才能发现其中规律性的知识,获取有价值的信息,这是医学学术研究的重要组成部分。目前,医学文献检索系统存在的主要问题包括医学术语的同义现象较多,文献的规范化程度不高,造成医学文献的查全率与查准率受到较大的影响;文献之间的关联性较差,无法体现文献之间的规律性知识,未能全面满足用户的信息需求以及医学文献的寿命很短,半衰期仅为3.5年。为了解决这些问题,基于医学主题词表(Medical Subject Headings,MeSH)的医学信息组织工具在标引、编目、生物医学文献数据库和相关网络检索系统中得到了广泛应用。然而,要想更好的利用MeSH这个权威性的工具,就必须将将生物文献正确地归类到MeSH(Medical Subject Headings)术语,目前,这个分类过程主要是基于人工操作的,效率比较低下并且准确率有待提升。而本文地研究目的就是为了通过一些如SVM,text-CNN的分类算法,设计一个自动的智能的生物文献分类系统,以供后续更方便更准确更智能的检索。
MeSH 于 1960 年首次出版,至今已经经过50多年的发展,逐渐成为医学文献信息服务领域的重要工具,为人类生物医学研究 的发展起到了重要的推动作用。目前美国国立医学图书馆每年都出版一个 MeSH 的新版本, 所以 MeSH 是一部规范化的可扩充的动态更新叙词表。美国国立医学图书馆以 MeSH 作为生物医学文献标引的依据,并编制《医学索引》(Index Medicus)及建立计算机文献联机检索系统 MEDLINE 数据库。
在国内,随着MeSH的版本升级和优化改进,以及国内生物医学文献信息服务领域对MeSH的熟悉和了解,MeSH正在被逐步应用到相关的生物医学文献数据库及其系统产品中。这其中比较典型的系统或网站有中国生物医学文献服务系统、万方医学网和中国医学数字图书馆。这三个案例体现了国内应用MeSH的进展和成果,可以对国内相关研究机构和人员应用MeSH提供一些借鉴和参考。总体来说, MeSH 在国内实际应用的时间还不算长,在 MeSH 翻译的权威性、 MeSH 标引的准确性以及 MeSH 检索的科学性方面还有待继续提高。对 MeSH 进行更加深入的研究和更加科学的应用,对于提升国内医学文献信息服务水平具有重要的意义。
{title}2. 研究的基本内容与方案
{title}基本内容:如今,越来越多的人投身于生物医学领域研究,对生物文献的获取需求也越来越大。对生物文献进行检索主要有两种方式,其一是关键词检索,其二是主题词检索。就关键词检索而言,主要存在如下问题:(1)如何保证检索出来的文献与关键词的相关性、准确性,(2)如何扩展关键词,对关键词的同义词、近义词也进行检索,以保证检索结果的全面性。就主题词检索而言,虽然检索结果全面、准确,但是用户很难判断一篇生物文献属于哪个主题词。目前,对生物文献进行归类主要是基于人工的,效率和准确性都比较低。因此,通过建立一个生物文献分类的系统将生物文献正确地归类到MeSH(Medical Subject Headings) term,以供后续的检索是十分重要的,也是本文需要研究的基本内容。
目标:利用学习的算法和掌握的技能设计并实现生物文献分类系统,并在之后的测试中对所实现的系统进行完善。
拟采用的技术方案及措施:
1、 学习掌握SVM(支持向量机),text-CNN等分类算法;
2、 学习掌握Java、Python等编程语言;