基于深度学习的基因-疾病实体关系抽取毕业论文
2021-11-05 19:15:16
摘 要
近年来,生物文献数量急剧增长,这些文献包含着大量的可挖掘的信息,基因与疾病的关系是一直被关注的热门话题,但是如果只靠人工去标注这些数据是一个非常耗时耗力的工作,所以生物文献数量的增长与手工挖掘信息速度的矛盾日益突出,如何让机器自动的挖掘基因与疾病的信息是我们的研究方向。
对于基因与疾病的关系抽取,基于机器学习的研究方法来进行关系抽取任务,有以下几种方法一种是使用结构为使用不同大小窗口内核的CNN模型进行关系抽取任务。由于不同句子中实体间的不同关系对于不一样的单词甚至一样的单词在中的起的作用是不同的,所以该方法的缺点是使用统一的embedding 可能会有噪音影响。另外一种是RNN模型,使用RNN而不是CNN作为基本结构,使用双向RNN来捕获更多信息,使用更加简单的位置指示器来标记两个实体的位置。
本文的目的在于搭建句子级的关系抽取模型并观察其在进行生物医学文本数据关系抽取的表现,本文模型采用双向RNN的变形BiLSTM,训练BiLSTM Attention模型来判断某一个句子中出现的基因与疾病是否相关。然后爬取与人类基因有关的所有文献,来使用BiLSTM Attention模型构建基因疾病数据库,在搭建一个Web网页,为生物医学从业者提供可视化查询基因与疾病关系的方法。
研究结果表明使用BiLSTM Attention模型来进行命名实体关系抽取任务是可行且成功的。
关键词:深度学习;关系抽取;基因-疾病;机器学习
Abstract
Recent years, the number of biological documents has increased rapidly. These documents contain a lot of information that can be mined. The relationship between genes and diseases is been a hot topic. However, it will cost a lot of time and many manpower if we only get this knowledge by human. Therefore, the contradiction between the growth of the number of biological documents and the speed of manual information mining has become increasingly prominent. How to make the machine automatically mining the information of gene and disease is our research direction.
For the relationship extraction of gene and disease, the task of relationship extraction is based on the research method of machine learning. One of the following is to use CNN with multi sized window kernels model for relationship extraction. But different words have different importance in different relationships. Using unified embedding can have noise effects. The other is RNN model, which uses RNN instead of CNN as the basic structure, uses bidirectional RNN to capture more information, and uses simpler position indicator to mark the positions of two entities.
The purpose of this paper is to build a sentence level relation extraction model and observe its performance in biomedical text data relation extraction. In this model, bilstm with two-way RNN is used to train bilstm attention model to judge whether the gene in a sentence is related to the disease. Then, crawling all the literatures related to human genes, we use the bilstm attention model to build a gene disease database, and build a web page to provide biomedical practitioners with a visual way to query the relationship between genes and diseases.
The results show that using bilstm attention model to extract named entity relationship is feasible and successful.
Keywords:deep learning;relationship extraction;disease-gene;machine learning
目 录
目 录 1
第 1 章 绪论 1
1.1 研究背景及意义 1
1.2 国内外发展现状 1
1.3 研究内容 3
1.4 本文组织 3
第 2 章 背景知识 5
2.1 RNN循环神经网络 5
2.1.1 RNN循环神经网络介绍 5
2.1.2 LSTM网络 6
2.1.3 双向RNN与BiLSTM 9
2.2 注意力机制 10
2.3 BeFree、DTMiner、RENET 10
2.3.1 BeFree介绍 10
2.3.2 DTMiner介绍 11
2.3.3 RENET介绍 11
第 3 章 关系抽取研究 12
3.1 命名实体识别任务 12
3.2 使用BiLSTM Attention实现关系抽取 12
3.2.1 使用BiLSTM Attention的原因 12
3.2.2 BiLSTM Attention模型 12
3.3 数据集 13
3.3.1 训练集来源 13
3.3.2 基因疾病关系数据库数据来源 14
第 4 章 实验过程 16
4.1 实验安排 16
4.2 预处理 16
4.3 构建BiLSTM Attention模型 16
4.3.1 Embedding层 16
4.3.2 BiLSTM层 17
4.3.3 Attention层 17
4.3.4 模型整体架构及一些细节 17
4.4 训练 18
4.4.1 参数设置 18
4.4.2 训练截图 18
4.5 测试 19
4.6 搭建基因疾病数据库 19
第 5 章 评价与分析 21
5.1 引入attention机制前后效果对比 21
5.2 评价标准 21
5.3 与其他关系抽取模型、文本挖掘工具的对比 22
第 6 章 总结与展望 23
6.1 分析与总结 23
6.2 未来展望 23
参考文献 25
致谢 27
绪论
研究背景及意义
近年来,生物医学文献数量急剧增长,这些文献包含着大量的可挖掘的信息,基因与疾病的关系是一直被关注的热门话题,如果能够精确的从文献中挖掘到这些信息,可以为医学从业者的研究提供帮助,但如果我们想要通过人工的方式来标注基因与疾病的关系,这不仅仅需要耗费巨大的人力,而且需要标注人员有较高的生物医学素养,以上原因导致了生物文献数量的增长与手工挖掘信息速度的矛盾日益突出。
如果机器可以帮助我们对海量的生物医学文献进行标注并且正确率在一个可接受的范围内,那么这样就使得人从标注任务中解放出来。而近年来深度学习在关系抽取任务上成果颇丰,因此,我们可以通过深度学习的相关技术来让机器帮助我们完成标注任务。
本课题研究的目的是让机器在已有的大量生物医学文献中挖掘基因与疾病的关系。使用深度学习来获得更加准确的基因与疾病的关系,存储基因与疾病的关系信息,建立较完善的基因-疾病数据库,供后续研究者深入研究。同时保留好神经网络的权重,以便在基因-疾病数据库加入新的基因-疾病关系。编写可视化查询界面,便于非计算机专业人员查询使用,给用户较好的使用体验。
本课题的意义在于为生物医学从业者提供一个便捷的查询基因和疾病之间关系的可视化方法,并且建立了一个包含与人类疾病相关的全部基因-疾病关系的数据库。解决了生物医学文献数量的增长与手工挖掘信息速度的矛盾,并且保留了权重以及神经网络信息,有较好的可扩展性。
国内外发展现状
关系抽取任务的前提是命名实体识别任务,我们可以通过PubTator文本开发工具来识别生物医学文献摘要的基因以及疾病实体。