基于机器学习的组织病理学癌症检测毕业论文
2021-10-27 22:13:00
摘 要
本文的研究对象是转移性乳腺癌患者与健康人类的前哨淋巴结的全幻灯片图像(WSI),研究目的是通过搭建并训练深度学习系统进而对全幻灯片图像进行识别,判断患者是否罹患转移性乳腺癌。该系统可以辅助病理学家进行临床诊断任务,降低他们的误判率并减轻工作负担。
该系统包含两级数据预处理模块与两级机器学习模型,这种串联结构的系统可以对原始WSI进行多次降维与特征提取,既能尽可能地减少计算开销又能对WSI进行准确的识别。数据预处理部分主要采用多种传统图像处理方法,如阈值分割等。所使用的机器学习模型包括FCN,U-Net,支持向量机与随机森林。
该系统在Camelyon16数据集中的部分WSI上进行测试,并取得了较好的效果,系统的F1值达到了0.8,这说明本系统在极高分辨率的病理图像的分类任务中表现良好,它所采取的数据处理策略能作为其他高分辨率病理图像分析系统的参考。
关键词:全幻灯片图像(WSI);转移性乳腺癌;FCN;U-Net;支持向量机;随机森林
Abstract
The research object of this paper is the whole slide image (WSI) of sentinel lymph nodes in patients with metastatic breast cancer and healthy humans. The purpose of the research is to identify the whole slide images and determine whether the patient has metastatic breast cancer by building and training a deep learning system. The system can assist pathologists in clinical diagnosis tasks, reduce their misjudgment rate and alleviate their workload.
The system includes two data preprocessing modules and two machine learning models. This series-structured system can perform multiple dimensionality reduction and feature extraction on the original WSI, which can reduce the calculation overhead as much as possible and accurately identify the WSI. The data pre-processing part mainly uses a variety of traditional image processing methods, such as threshold segmentation and etc. The machine learning models used include FCN, U-Net, Support Vector Machine and Random Forest.
The system was tested on some WSIs of the Camelyon16 dataset and achieved a good result. The F1 score of the system reached 0.8, which shows that the system performs well in the classification task of extremely high resolution pathological images. The data processing strategy adopted can be a reference for other high-resolution pathological image analysis systems.
Keywords: whole slide image (WSI); metastatic breast cancer; FCN;U-Net; Support Vector Machine;Random Forest
目录
摘要 I
Abstract II
1 绪论 1
2 研究内容及目的 3
2.1 癌的转移与癌症的类型 3
2.1.1 转移 3
2.1.2 原发癌与转移癌 4
2.2 癌症的诊断与治疗 5
2.2.1 传统方法 5
2.2.2 传统方法的局限性 6
2.2.3 数字化病理学与WSI 7
2.3 选择研究对象——转移性乳腺癌的全幻灯片图像 8
3 方案选择 9
3.1 传统图像处理方法 9
3.2 深度学习 10
3.3 最终方案 10
4 系统设计与实现 11
4.1 系统框图 11
4.2 实验环境 12
4.3 数据集 13
4.4 生成切片数据集 13
4.5 训练切片图像分类器 20
4.5.1 FCN 20
4.5.2 U-Net 21
4.6 建立概率热点图的特征向量数据集 22
4.7 训练概率热点图分类器 24
4.7.1 SVM 24
4.7.2 RF 25
4.8 评估WSI 26
5 结果分析 28
5.1 WSI数据集 28
5.2 切片图像数据集 29
5.3 切片分类模型的性能分析 31
5.3.1 FCN 31
5.3.2 U-Net 32
5.4 热点图数据集 33
5.5 热点图分类模型的性能分析 34
5.5.1 SVM 34
5.5.2 RF 34
5.6 关于提升系统性能的可行措施 35
5.6.1 提升切片分类器性能的措施 35
5.6.2 提升热点图分类器性能的措施 35
6 结论 36
7 致谢 37
8 参考文献 38
1 绪论
癌症是一种危害人类健康且广泛存在的疾病,一般来说,癌症可以分为原发癌与转移癌,并且绝大部分的癌症患者的死亡是癌细胞的转移所导致的,即转移癌。因此,在治疗过程中,对转移癌的及时识别与检测是非常重要的。转移癌有四种转移方式:淋巴结转移;血行转移;直接蔓延;种植性转移。其中,淋巴结转移是最常见的转移方式,是指初始病变区域的肿瘤细胞通过穿过淋巴管壁扩散到身体中的其他器官并且生长出与初始病变区域类型相同的肿瘤的现象。因此,在临床诊断过程中,会优先提取癌变位置附近的淋巴结组织做成切片,经过染色,扫描等过程制作成全幻灯片级病理图像(WSI)。
然而,人类医生需要积累大量经验才能对病理图像进行正确的分析与判断,年轻或缺乏经验的医生容易出现误判。因此希望借助计算机视觉技术,开发能够对癌细胞在淋巴结组织中转移情况进行识别与分类的机器学习系统,这样可以帮助医生减少工作量和误判的可能性,更高效率的诊断具有极高的临床应用价值。