基于对抗神经网络的恶意软件流量检测原型系统毕业论文
2021-11-09 21:11:24
摘 要
网络在便利人们生活的同时,也带来了一些安全性问题。例如,非法vpn软件可以绕过防火墙检测,进而窃取隐私或机密信息,对个人和组织产生极大危害。由于传统手段对加密流量的检测效果不佳,故本文采用了一种基于时间序列和深度对抗卷积神经网络的半监督恶意加密软件流量检测算法,并在此基础上进行改进和完善,优化特征选取和模型参数,设计实现了一个恶意加密流量检测原型系统。
由于采用基于时间序列的特征提取算法,故模型仅需少量的数据包即可完成识别过程,这种特点,在本文所设计的恶意流量检测原型系统表现出高实时性。除此之外,借助于半监督的DCGAN算法的帮助,模型本身具有一定的学习能力,可以通过未标记的流量数据辅助训练,故本原型系统也可以随着时间的更新,捕获流量数据,进而对自身进行完善。
最后,本文设计实验并对训练好的模型加以评估,在vpn和non-vpn的加密流量检测任务中,识别的准确率为95.06%,精确度为95.77%,召回率为97.76%,F1值为98.97%,识别精度高,识别效果好,能够有效区分vpn加密流量。
关键词:加密流量检测; DCAGN; 半监督学习; 时间序列流量特征; VPN
Abstract
While the network facilitates people's life, it also brings some cyber security problems. For example, illegal VPN software can bypass firewall detection, and then steal privacy or confidential information, causing great harm to individuals or organizations. Because of the traditional methods of encrypted traffic detection is not very effective, so we adopt a detection algorithm for encryption traffic based on time series and semi-supervised deep convolutional generative adversarial network. On the basis of the algorithm, we designed and realized a prototype system of encryption traffic detection by optimizing the feature selection and model parameters.
Due to the feature extraction algorithm based on time series, the model only needs a few packets to complete the recognition process, which make the prototype system of encrypted traffic detection has high real-time performance. In addition, with the help of semi-supervised DCGAN algorithm, the model can be trained with unlabeled traffic data. Therefore, this prototype system can also be auto updated with capture traffic data and further improve itself.
Finally, we designed an experiment to evaluated trained model. In the task of VPN and non-vpn encrypted traffic classification, the accuracy was 95.06%, the precision was 95.77%, the recall rate was 97.76% and the F1 score was 98.97%, which has a good recognition accuracy and can easily distinguish between VPN traffic and non-VPN traffic.
Key Words: encrypted traffic detection; DCAGN; semi-supervised learning; time-series flow; VPN
目录
摘 要 III
Abstract IV
第1章 绪论 1
1.1 课题研究的背景 1
1.2 国内外研究现状 1
1.2.1 对抗神经网络应用研究现状 1
1.2.2 流量检测研究现状 3
1.3 本文主要研究内容 3
1.4 预期目标 3
1.5 论文结构安排 3
1.6 本章小结 4
第2章 基于对抗神经网络的恶意流量检测模型 5
2.1 基于时间序列的加密流量特征提取算法 5
2.1.1 加密流量检测基本原理 5
2.1.2 基于时间序列特征的伪图像矩阵 6
2.2 基于半监督深度卷积对抗神经网络的加密流量检测算法 7
2.2.1 生成对抗神经网络 7
2.2.2 深度卷积对抗神经网络 7
2.2.3 半监督深度卷积对抗神经网络 8
2.2.4 模型参数 9
2.3 本章小结 10
第3章 实验结果及分析 11
3.1 实验环境 11
3.2 ISCX VPN-NonVPN数据集 11
3.3 数据预处理 12
3.3.1 剔除pcap包中的无关信息 12
3.3.2 基于时间序列特征的伪图像矩阵提取 12
3.3.3 数据归一化和顺序打乱 12
3.4原型系统设计及实现 13
3.4.1 概况 13
3.4.2 嗅探模块 13
3.4.3 离线机器学习模块 14
3.4.4 实时网络流量检测模块 14
3.5 实验结果 14
3.5.1 流量检测评估指标 14
3.5.2 对抗网络生成的伪流量图像 15
3.5.3 流量检测模型评估 15
3.6 结果分析 16
3.7 本章小结 16
第4章 总结与展望 17
4.1 本文工作总结 17
4.2 未来工作展望 17
参考文献 18
致谢 20
附录 21
第1章 绪论
课题研究的背景
随着网络技术的不断革新,加密流量的使用愈加广泛,并逐渐在网络通信流量中占据更高的比重。加密流量的使用保护了人们的隐私安全,但是也给一些心怀不轨之人钻漏洞的机会,他们利用加密流量越开互联网检测,登录浏览非法的网页,或者是与境外敌对组织秘密通信,泄露机密信息,又或是在暗网等网络中进行非法交易。除此之外,攻击者还可以在已攻陷的电脑中,利用加密浏览流量越过防火墙检测,偷取隐私或机密信息,更有甚者,利用加密软件在保密组织中偷取文件、音频等,从事间谍工作。如何在科技进步的同时,更好的保护自己,不受科技所害,一直是人类关注的话题,故越来越多的学者和技术人员对加密流量检测进行了研究。
传统的流量检测方式难以应对出现次数越来越多的加密流量,在智能化高度发展的今天,当面对各种层出不穷的新软件、新协议所产生的加密流量时,却经常需要专业人士协助才能对流量进行分析,传统流量自动检测方式往往难以入手,需要不断添加检测新的规则或者添加新的流量特征以对最新的变化做出应对。故以传统方式开发的流量检测系统,需要定期维护和更新,如果缺少专业人士维护,会逐渐落伍于时代,不能正常工作,检测精度难以保障。除此之外,恶意加密流量攻击转瞬即逝,由于传统流量检测方式选取流量特征繁多,流量特征提取方式复杂,并且常常需要流量统计特征参与,提取流量跨度时间长,对实时性要求不高的场景尚可应付,但是面对高实时性要求的场景,很难发挥出应有的作用。
相较于传统加密流量检测方法研究所面临的窘境,对抗神经网络成为了近几年人们研究的热点,并且在很多领域取得了不错的效果,例如图像生成、风格迁移和NLP处理等。而对抗神经网络在流量识别应用的实现较少,本文的研究便是在该背景下产生的,目的是寻求一种利用对抗神经网络来实现一种恶意加密流量检测算法,借助于深度学习的辅助,达到自动利用新出现的恶意加密流量数据对模型进行更新,并实时识别网络加密流量的效果。
国内外研究现状
本文的工作是采用对抗神经网络对加密流量进行检测,故在此对二者的研究现状进行介绍。
1.2.1 对抗神经网络应用研究现状
对抗神经网络由Goodfellow[1]于2014年提出,该模型设计巧妙,利用生成器和识别器二者之间的相互博弈,达到纳什均衡状态,此时,识别器不能判别出生成器所产生的数据是否为真实或伪造数据。