总第6期
2016年4月刊
Focus    焦点
Column Big Data    大数据专栏
大数据在网络安全领域的作用
文/洪福成
分享

摘要:利用大数据技术对网络流量、日志、文件等海量数据进行分布式存储与计算、机器学习与数据挖掘,发现网络安全威胁和未知恶意攻击行为,并对被攻击目标和攻击源头进行精准定位,实现对威胁入侵途径的回溯;同时,联动防火墙、IPS等一系列边界安全防护设备来阻断攻击行为,为企业构建立体化的信息安全防护技术体系。

随着企业安全架构日趋复杂,安全设备种类繁多,实时生成的安全数据成几何级数增长,这也给传统针对小数据量设计的安全分析工具和方法带来了新的难题,包括:海量数据存储、异构数据融合、并行计算效率、机器学习和数据挖掘等。

图1 安全大数据技术架构

针对上述挑战,华三安全大数据分析平台基于Hadoop + MPP混合技术架构,提供海量数据存储和高效并行计算,结合机器学习算法能够快速分析和挖掘高级持续攻击的蛛丝马迹,为信息安全防护提供了新的手段,下面重点分析大数据在信息安全领域的作用。

一、海量数据存储与大规模并行计算

企业IT系统昼夜不停地在产生与安全相关的数据,包括:网络事件、日志数据、行为数据等,这些数据的规模在不断的增长,达到TB甚至PB级别,数据驱动的信息安全设备需要对大量的历史数据进行长期保存和大规模计算分析。

架构于关系型数据库的传统安全技术面临几个问题。首先,传统的关系型数据库,如Oracle、Sybase等,采用SMP(Symmetric Multi-Processing)对称多处理架构,汇聚多个服务器的一组CPU处理器,各CPU之间共享内存、总线和存储。可以通过增加CPU、内存来提高性能,进行Scale up的纵向扩展,但由于是共享存储IO带宽有限,无法大规模扩展,不适合数据规模大的应用场景。其次,传统的关系型数据库需要布署在小型机+磁盘阵列等昂贵设备上,建设成本和维护费用都很昂贵。另外,越来越多的安全攻击行为隐藏在网页、文件等非结构化数据中,传统安全技术在非结构化数据集的存储、分析和查询的效率非常低,无法满足新形势的要求。

华三安全大数据分析平台采用Hadoop和MPP融合技术架构,对半结构化和非结构化数据支持差异化的低成本存储,提供低时延、高并发的并行查询和分析功能;对关系型数据采用MPP分布式数据库,支持列存储、智能索引等功能,实现高性能分析处理。同时,集成MapReduce、Spark、Storm等多种计算框架,利用YARN做统一资源管理,可在同一份数据集上运行多种计算,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。华三安全大数据分析平台基于x86服务器集群的本地计算与存储资源,计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算和存储的高可靠保证,具备较强的容错性。

二、大数据机器学习与未知威胁挖掘

随着信息技术的发展,安全威胁也发生了重大的变化,攻击行为从知名工具和脚本等传统行为,转向APT攻击、免杀木马、新型木马、0day漏洞等未知手段,采用锁定目标、长期潜伏方式进行渗透、驻点、提权、实施等定制攻击行为,绕过传统防火墙/IPS等安全设备,威胁企业信息系统安全。传统的防火墙、IPS等边界安全设备采用以漏洞为中心的被动防御体系,对未知攻击行为缺乏识别和判断的能力,在防范未知威胁上无能为力。机器学习用于网络安全领域,对网络的大量数据进行分析,通过机器学习算法自动产生模型,可以使网络具有自动识别攻击、挖掘和清除未知威胁的能力。

机器学习方法是计算机利用已有的数据(经验),得出了某种模型(规律),并利用此模型预测未来的一种方法。机器学习用于安全数据挖掘,从海量的计算机网络数据流中提取隐含的、事先未知的、潜在有用的、易被理解的信息,利用关联分析、序列模式分析、分类分析等算法提取与入侵活动相关的系统特征属性,生成简洁而精确的“模型”,自动识别未知攻击,并根据新发现的攻击行为不断自我完善“模型”。机器学习也可以用于遗传算法,基于遗传和变异的生物进化理论,从系统日志、系统调用序列、网络流量等大量审计数据中提取与安全相关的系统特征属性,采用遗传算法选择其特征向量集以建立入侵检测模型。此外,神经网络、人工免疫等都可以基于机器学习,用于未知网络安全威胁的挖掘。

对于机器学习而言,样本数据越多,模型的精确性就越高,并且复杂的机器学习算法也迫切需要分布式计算等关键技术来提升计算效率。传统的机器学习并不把海量数据作为处理对象,很多技术是为处理中小规模数据设计的,例如:决策树是一种较好的机器学习技术,传统的决策树算法程序需要把所有的数据都读到内存中,在面对海量数据时这显然是无法实现的,为了使决策树能够处理海量数据,基于大数据的算法程序做了很多优化工作,通过引入高效的数据结构和数据调度策略等来改造决策树学习过程。大数据技术可以提供大容量样本数据存储和高效的并行计算能力,为机器学习用于网络安全领域构建技术基础。

三、全文检索与攻击回溯

为用户呈现每一次安全攻击的完整路径,包括:攻击源头、攻击手段、攻击目标、涉及范围等相关信息,对安全攻击进行快速的回溯,这是网络安全的一个重要环节,而实现这些功能的一项关键技术手段就是全文检索。例如:某未知安全威胁被挖掘出来,按照IP地址信息,在全部的安全数据中查找与该IP相关的信息,并从中提取关键数据,这就是全文检索。

ElasticSearch是当前流行的企业级全文搜索引擎,它的优点包括:支持JOSN通过HTTP进行数据索引、支持RESTful Web接口作为搜索引擎、基于Lucene的搜索服务集群提供实时搜索和集群扩展等。ElasticSearch-Hadoop是一个深度集成Hadoop和ElasticSearch的项目,通过实现Hadoop和ElasticSearch之间的输入输出,可以在Hadoop里面对ElasticSearch集群的数据进行读取和写入,充分发挥Map-Reduce/Spark并行处理的优势,为Hadoop数据带来实时搜索的能力。

四、结束语:

基于大数据的网络安全技术,具备从一片森林中快速找到一片坏叶子的能力,这就是大数据安全分析中心。大数据安全分析中心具备发现网络攻击的能力,但不具备阻断网络攻击的手段,需要与安全策略中心配合,联动防火墙、IPS等一系列边界安全防护设备来阻断攻击行为,为企业构建立体化的信息安全防护技术体系。

关闭