机器学习在网络空间安全研究中的应用

资源描述

《机器学习在网络空间安全研究中的应用》由会员分享，可在线阅读，更多相关《机器学习在网络空间安全研究中的应用（23页珍藏版）》请在金锄头文库上搜索。

1、机器学习在网络空间安全研究中的应用,2019-4-26,xxx,引言,随着云计算、物联网、大数据等新兴技术的迅猛发展，数以亿计的网络接入点、联网设备以及网络应用产生的海量数据，给网络空间安全带来了巨大的困难和挑战，传统的安全问题解决方案面对海量数据变得效率低下机器学习以其强大的自适应性、自学习能力为安全领域提供了一系列有效的分析决策工具，近年来引起了学术界与工业界的广泛关注和深入研究,01,引言,4,网络空间（Cyberspace）不仅包含互联网、通信网、各种计算系统、各类嵌入式处理器和控制器等硬件和软件，也包括这些硬件和软件产生、处理、传输、存储的各种数据或信息，还包括人类在其中活动而产生的

2、影响网络空间因而被称为陆、海、空、太空之外的第五大空间近年来网络空间中各类安全事件和网络攻击频繁发生，例如2016年10月由恶意软件 Mirai 控制的僵尸网络发起 DDoS攻击，造成美国东海岸大范围断网；2017年月爆发的勒索病毒软件 WannaCry 利用系统漏洞进行攻击，造成全球多个国家数十万用户电脑中毒；在我国，每年因伪基站、恶意软件勒索等数字犯罪造成的损失达上百亿元,勒索病毒 WannaCry,引言,5,调研显示，机器学习在网络空间安全基础、密码学及其应用作为理论基础方面的研究较少涉及；而在系统安全、网络安全、应用安全三个方向中有大量的研究成果发表其中，系统安全以芯片、系统硬件物理环

3、境及系统软件为研究对象，网络安全主要以网络基础设施、网络安全检测为研究重点，应用层面则关注应用软件安全、社会网络安全,如图1所示的研究体系从机器学习技术应用于网络空间安全的角度出发，总结了机器学习一般应用流程，如图中右侧所示，详细介绍问题的定义、数据采集、数据预处理及安全特征提取以及模型构建、验证、效果评估各个阶段，有助于研究人员全面地理解基于机器学习技术的网络空间安全问题解决方案,机器学习在网络空间安全中的应用流程,02,机器学习在网络空间安全中的应用流程,7,通常机器学习被认为是一组能够利用经验数据来改善系统自身性能的算法集合机器学习从大量数据中获取已知属性，解决分类、聚类、降维等问题理解

4、机器学习在网络空间安全中的应用流程，能够有效地帮助网络空间安全领域的研究人员建立直观的认识，同时也是其进一步采用机器学习技术解决网络空间安全问题的前提如图所示，机器学习在网络空间安全研究中的一般应用流程，主要包括安全问题抽象、数据采集、数据预处理及安全特征提取、模型构建、模型验证以及模型效果评估个阶段在整个应用流程中，各阶段不能独立存在，相互之间存在一定的关联关系,2.1 安全问题抽象,8,安全问题抽象是将网络空间安全问题映射为机器学习能够解决的类别问题映射恰当与否直接关系着机器学习技术解决网络空间安全问题成功与否因此，使用机器学习技术解决安全问题的第一步就是要进行问题的抽象和定义，将安全问题

5、映射为机器学习能够解决的分类、聚类及降维等问题如图所示，对劣质芯片或硬件木马的检测、伪基站检测、虚拟化安全、信用卡欺诈等都可以抽象为分类问题；设备身份认证、社交网络异常帐号检测、网络入侵检测等可以抽象为聚类问题；用户身份认证、恶意异常入侵检测、取证分析、网络舆情等既可以抽象为分类问题也可以抽象为聚类问题如果是高维数据的处理，可以抽象为降维问题，例如在设备身份认证、恶意网页识别问题中，由于数据维度过高，可以利用机器学习主成分分析（PCA）算法、奇异值分解（SVD）算法等对数据进行降维操作通过对安全问题的合理抽象和定义，研究人员可以明确如何采集数据，并选择恰当的机器学习算法构建安全问题模型,2.2

6、数据采集,9,应用机器学习算法必不可少的要有大量的有效数据，因此数据采集是机器学习应用于网络空间安全的前提条件数据采集阶段主要利用各种手段，如 Wireshark 、Netflow 、日志收集工具等，从系统层、网络层及应用层采集数据系统层数据用于系统安全问题的研究，这类数据主要有芯片信息、设备信息、系统日志信息以及实时运行的状态信息等，主要用于芯片安全、设备安全及系统软件安全，例如采集基站的位置信息、短信日志等数据用于伪基站检测研究网络层数据指与具体网络活动密切相关的数据，目前常用的是网络包数据或网络流数据，主要用于检测僵尸网络、网络入侵等，例如在企业内部网络中采集大量的真实的 TCP流数据

7、用于进行协议分类及异常协议检测研究应用层数据指网络空间中的各类应用软件产生及存储的数据，如邮件文本信息、Web 日志、社交网络文本信息、用户个人信息等，主要用于应用软件安全检测、网络舆情分析等，例如采集大量的 URL数据用于恶意网页识别除自行采集数据外，目前安全领域有一些常用的公开数据集供研究者使用，如表所示,2.3 数据预处理及特征提取,10,由于采集的原始数据存在数据缺失、非平衡、格式不规范、异常点等问题，需要在提取特征之前对原始数据进行清洗和处理，主要包含对数据规范化、离散化以及非平衡性的处理等（）数据预处理在真实的网络环境中，采集的数据可能包含大量的缺失值、噪音，也可能由于

8、人工录入失误而产生异常点因此，为了提高数据的质量，保障构建模型学习的效果，需要对数据进行清洗及归一化等预处理例如从企业内部采集的 TCP流数据，首先需要剔除重复数据、去除噪音等规范化操作；然后对清洗之后的数据进行聚合、归一化等处理 . （）数据缺失处理及异常值的处理如果采集数据集中某个特征缺失值较多时，通常会将该特征舍弃，否则可能会产生较大的噪声，影响机器学习模型的效果当某个特征的缺失值较少时，可用采用固定值填充、均值填充、中位数填充、上下数据填充、插值法填充或者随机数填充等方法（）非平衡数据的处理例如在信用卡欺诈检测中，减少正常账号的数据样本过采样与欠采样相对，过采样适用于数据量不足的

9、情况，通过复制、自举法等方法增加少数类的样本量来平衡数据集，例如增加伪造信用卡账号的数据样本（）数据集的分割数据预处理完成后，需要进行机器学习模型所需数据集的准备工作该工作主要将整理之后的数据集分为三个集合：训练集、验证集和测试集（）特征提取特征提取指从数据中提取最具有安全问题的本质特性的属性从清理后的数据中提取特征通常需要特定的领域知识，例如恶意网页的识别中需要从抓取的网页数据中提取主机信息特征、网页内容特征、静态链接关系及动态网页行为等特征,2.4 模型构建,11,模型构建是机器学习在网络空间安全应用流程中的中心环节，根据数据预处理后的数据集及目标问题类型，在本阶段选择合适的学习算

10、法，构建求解问题模型模型构建具体包含个部分，即算法选择和参数调优需要面对种类繁多的机器学习算法，如何能够选择恰当的机器学习算法是应用机器学习技术解决网络空间安全问题的关键在机器学习领域，按照数据集是否有标记分为监督学习、无监督学习在监督学习模式中，每组数据有一个明确的标签，例如垃圾邮件检测中的每条数据标记为“垃圾邮件”或“非垃圾邮件”监督学习算法常用于分类问题和回归问题常见算法有逻辑回归（LR）、人工神经网络（ANN）、支持向量机（SVM）、决策树、随机森林、线性回归等在非监督学习中，数据不包含标签信息，但可以通过非监督学习算法推断出数据的

11、内在关联，例如社交网络帐号的检测中对好友关系、点赞行为等聚类，从而发现帐号内在的关联非监督学习常用于聚类问题常见的算法有近邻（KNN）、层次聚类算法、图聚类算法等,2.5 模型验证,12,模型验证主要评估训练的模型是否足够有效在此阶段中，倍交叉验证法是最常见的验证模型稳定性的方法倍交叉验证法将数据预处理后的训练数据集划分成个大小相似且互斥的子集，每个子集尽可能保持数据分布的一致性，然后每次用子集的并集作为训练集，剩余子集作为验证集，从而获得了组训练数据集和验证集，可进行次训练和验证测试，最终的返回结果是这次验证测试结果的均值例如在设备身份认证、网络入侵检测、恶意域名检测系统、恶意 PDF文

12、件的检测、社交网络异常帐号检测中均使用了10倍交叉验证模型，用于评估模型是否符合训练目标如果当前模型与训练目标偏离较大，则通过分析误差样本发现错误发生的原因，包括模型和特征是否正确、数据是否具有足够的代表性等如果数据不足，则重新进行数据采集；如果特征不明显，则重新进行特征提取；如果模型不佳，则选择其他学习算法或进一步调整参数.,2.6 效果评估,13,机器学习的模型评估主要关注模型的学习效果以及泛化能力泛化能力的评估通常是对测试集进行效果评估在芯片检测、恶意软件检测、异常检测、网络入侵检测等分类问题中，效果评估常用到表所列的评估指标，常用的分类评估指标有正确率、查准率（又称精度）和查全率（

13、又称召回率）正确率是分类正确的正常样本与恶意样本数占样本总数的比例，一般来说正确率越高，分类器越好查准率则是被正确识别的正常样本数占被识别为正常样本的比例，也是分类器精确性的衡量标准查全率是被正确识别的正常样本与正确识别的正常样本和错误识别的恶意样本之和的比例，该指标衡量了分类器对正常样本的识别能力此外，在不同的领域还有不同的指标说法，例如在硬件木马检测、异常检测、网络入侵检测中还常使用误报率（FPR）、漏报率（FNR）来衡量模型的泛化能力在认证领域常使用误识率（FAR）、拒识率（FRR）对模型进行效果评估.,机器学习在

14、系统安全研究中的应用,网络空间中的系统主要指具有独立计算能力的单元计算系统，例如计算机、移动终端等本节以这些单元计算系统的安全为核心，横跨芯片、系统硬件及物理环境、系统软件三个层面，介绍机器学习在系统安全中的相关研究其中，芯片安全方面包括劣质芯片检测、硬件木马检测及攻击；系统硬件及物理环境安全包括设备身份认证、物理层边信道攻击及伪基站检测；系统软件安全包括漏洞分析与挖掘、恶意代码分析、用户身份认及虚拟化安全,03,3.1 芯片安全,15,分布多维化、步骤繁多的硬件产业供应链使硬件设备易在各个环节容中出现安全问题，例如二手芯片、硬件木马已有学者尝试利用机器学习技术来解决芯片安全问题，主要基于边

15、信号分析、指纹识别和图像识别的劣质芯片和硬件木马检测针对芯片知识产权保护安全，已有研究提出物理不可克隆函数（PUF）攻击，主要是利用机器学习技术推测由PUF生成的芯片知识产权保护标识 3.1.1 劣质芯片检测劣质芯片包括低规格、不达标的芯片以及翻新的芯片劣质芯片一般很难通过肉眼看出，传统检测方法例如物理检测中的材料分析、电子检测中的功能测试及结构测试等，代价昂贵又十分耗时研究发现，劣质芯片与原厂芯片存在差异参数：一是边信道差异参数，包括正偏压温度不稳定性、负偏压温度不稳定性、热载流子注入、路径延迟等；二是芯片外形方面，例如颜色、擦痕等因此，出现了基于上述两类差异参数的劣质芯片检测研究劣质芯

16、片检测目前使用的机器学习技术主要是单类分类器、异常检测技术等，主要因为多数训练样本只有一类可信芯片样本劣质芯片检测不管是依据边信道差异参数特征还是利用图像识别技术，在一定程度上均提升了检测效率，但这仅是在粗粒度差异特征下取得的效果，面对细粒度的差异特征时，劣质芯片识别率较低 .,3.1 芯片安全,16,3.1.2 硬件木马检测芯片的硬件木马通常指在原始芯片植入具有恶意功能的冗余电路硬件木马通常分为物理上的木马（例如增加或删除晶体管、开关选择器、连接线等）和激活态的木马（例如触发器和负载）被植入木马的芯片，其热量、功耗和延时等边信道信号会有所改变，因此可以通过收集芯片边信道的参数指纹，在多维的空间对比，判断是否在可信芯片的参数指纹范围内目前机器学习在硬件木马检测方向研究有芯片原理图成像识别和边信道信号分析 3.1.3 攻击物理不可克隆函数（PUF）电路是一种根据芯片在制造

展开阅读全文