总第8期
2016年12月刊
Solution    方案
Solution    方案
安全大数据建设思路和技术框架
文/洪福成
分享

摘要:利用大数据技术对网络流量、日志、文件等海量数据进行分布式存储与计算、机器学习与数据挖掘,发现网络安全威胁和未知恶意攻击行为,并对被攻击目标和攻击源头进行精准定位,实现对威胁入侵途径的回溯;同时,联动防火墙、IPS等一系列边界安全防护设备来阻断攻击行为,为企业构建立体化的安全防护技术体系。

随着互联网技术的应用和发展,网络结构变得日益复杂,安全数据、攻击威胁也呈现出大数据的特点。

  • 数据量越来越大(Volume)

NGFW的大规模应用,安全网关的应用层协议分析报文数据量急剧上升;安全纵深防御,包括:应用监测、行为监测、事件监测、性能监控等,安全数据种类也比之前更多;APT攻击挖掘,全包捕获技术,要求PB级的海量数据存储能力。

  • 速度越来越快(Velocity)

企业网络带宽从千兆到万兆,甚至到40G/100G,安全数据源的事件发送速率越来越快,也要求安全设备具备快速的处理性能。

  • 数据种类越来越多(Variety)

数据包、日志、配置数据、行为数据、漏洞信息、用户身份信息、访问记录、应用数据以及外部情报数据等,要求构建统一的平台存储海量异构的数据。

  • 安全新价值发现(Value)

基于已知漏洞的实时攻击检测、基于海量异构数据的未知威胁挖掘、对整个网络的安全全景分析、对安全攻击全路径回溯和展示、安全情报信息的共享、安全设备联动防御等。

一、 现有的网络安全技术的问题

大数据技术应用于安全领域,能够对网络安全整体状况、未知威胁等进行分析和挖掘,安全大数据分析需要把安全相关数据进行统一采集、存储和计算,解决数据持续增长、数据类型多样、数据来源复杂等特点,但是现有的网络安全技术基于传统数据库/数据仓库,难以应对大数据的技术要求。

  • 安全信息孤岛,不具备高级威胁分析和挖掘所需要的数据

传统的安全设备相互之间功能上不关联互助、信息不共享互换,不同的安全设备之间形成彼此隔离的孤岛。然而,攻击行为通常会在网络的各个部分留下痕迹,真相隐藏在网络流量、系统日志之中。传统的安全事件分析思路是遍历各个安全设备的告警日志,并尝试找出其中的关联关系,但这种分析方式通常都无法对高级攻击的各个阶段进行有效的检测和告警。

Gartner提出了安全智能的概念,把分散的安全信息进行集成与关联,独立的分析工具进行整合形成交互,同时结合机器学习、数据挖据等技术,从而实现智能化的安全分析与决策。

  • 缺少海量数据快速分析能力,不支持非结构化数据和全文检索

对高级攻击进行检测,需要对全量数据进行快速分析,这要求本地具备海量的数据存储能力、检索能力和多维度关联能力,而传统安全技术的数据存储和检索技术很难达到这样的要求。例如,一个小规模的企业全年网络出口流量日志数据约为1000亿条,需要100多TB的存储空间,传统的数据库查询技术进行一次条件检索,大概需要几个小时的时间,这种效率明显不能满足攻击行为分析的需求。

此外,安全数据来源于网络流量、主机行为日志、网络设备日志、应用系统日志等多种非结构化数据,无法直接进行格式化检索;同时,在海量数据中搜索所需要的数据要经过复杂的手段和很长的时间,很难从海量的数据中找到真正有价值的信息。

  • 被动安全防御

随着信息技术的发展,安全威胁也发生了重大的变化,攻击行为从知名工具和脚本等传统行为,转向APT攻击、免杀木马、新型木马、0day漏洞等未知手段,采用锁定目标、长期潜伏方式进行渗透、驻点、提权、实施等定制攻击行为,绕过传统防火墙/IPS等安全设备,威胁企业信息系统安全。而传统边界安全设备采用以漏洞为中心的被动防御技术,基于规则库和特征库工作,只能对已知的攻击和威胁进行识别,对未知攻击行为缺乏识别和判断的能力,在防范未知威胁上无能为力。

通过采用大数据技术可以很好的解决上述问题,新华三安全大数据解决方案通过大数据安全分析技术的应用,可以更好地应对现有网络中所带来的安全挑战。

二、 新华三安全大数据

图1 新华三安全大数据技术架构

如上图所示,新华三安全大数据采用Hadoop/Spark和ES全文索引混合技术架构,为安全数据提供统一的采集、存储、管理和分析平台,通过机器学习与数据挖掘,发现网络安全威胁和未知恶意攻击行为,对被攻击目标和攻击源头进行精准定位,实现对威胁入侵途径的回溯;同时,联动防火墙、IPS等一系列边界安全防护设备来阻断攻击行为,为企业构建立体化的安全防护技术体系。新华三安全大数据技术的特点如下:

1. 统一安全数据存储和管理,消除安全数据孤岛

安全大数据平台采用Hadoop分布式计算技术架构,基于x86服务器的本地计算与存储资源,集群主机数量从数台到数千台之间动态弹性扩展,可以存储PB级的结构化、半结构化和非结构化海量数据,可以对安全相关设备所产生网络流量、日志数据、行为数据、安全事件、漏洞数据、配置数据等进行统一采集、存储、管理和分析,消除安全数据孤岛。

同时,Hadoop集成MapReduce、Spark、Storm等多种分布式计算组件,利用YARN的统一资源管理能力,可在同一份数据集上运行多种计算,提供低时延、高并发的并行查询和分析能力,与传统数据库相比,能够在海量数据环境下将查询分析性能提升10-100倍。

2. 安全全景分析

安全全景分析是针对整体范围或某一特定时间与环境,以情报数据为中心,结合日志、事件、行为、漏洞、资产、流量等数据,采用量化的KPI指标展示企业内部整体安全状态,使用户能够全局地了解网络的安全状况,动态地把握网络风险的演变过程,并通过历史数据来连续地分析和预测被评价对象的安全状态。

同时,为用户呈现每一次安全攻击的完整路径,包括:攻击源头、攻击手段、攻击目标、涉及范围等相关信息,对安全攻击进行快速的回溯,这是网络安全的一个重要环节。

3. 实时攻击检测

实时监测网络中各组成部分的安全状态,如:防火墙、IPS、审计系统等,并进行关联分析,从多个维度及时发现高风险的网络行为和安全事件。

安全网络安全监测的时效性要求非常高,例如异常访问、端口扫描、暴力破解等安全威胁必须及时发现和阻断,才能保护网络安全。基于Spark和storm的实时流式计算系统可以以最快的速度来处理安全数据,提供低延时、高可靠的海量数据处理,支持在几秒时间内就能检测到异常情况,支持的数据量超过每秒百G速率。

4. 未知威胁挖掘

机器学习用于网络安全领域,对大量安全数据进行分析,通过机器学习算法自动产生模型,可以使网络具有自动识别攻击、挖掘和清除未知威胁的能力。

机器学习方法是计算机利用已有的数据(经验),得出了某种模型(规律),并利用此模型预测未来的一种方法。机器学习用于安全数据挖掘,从海量的数据流中提取隐含的、事先未知的、潜在有用的、易被理解的信息,利用关联分析、序列模式分析、分类分析等算法提取与入侵活动相关的系统特征属性,生成简洁而精确的“模型”,自动识别未知攻击,并根据新发现的攻击行为不断自我完善“模型”。机器学习也可以用于遗传算法,基于遗传和变异的生物进化理论,从系统日志、系统调用序列、网络流量等大量审计数据中提取与安全相关的系统特征属性,采用遗传算法选择其特征向量集以建立入侵检测模型。此外,神经网络、人工免疫等都可以基于机器学习,用于未知网络安全威胁的挖掘。

对于机器学习而言,样本数据越多,模型的精确性就越高,并且复杂的机器学习算法也迫切需要分布式计算等关键技术来提升计算效率。传统的机器学习并不把海量数据作为处理对象,很多技术是为处理中小规模数据设计的,例如:决策树是一种较好的机器学习技术,传统的决策树算法程序需要把所有的数据都读到内存中,在面对海量数据时这显然是无法实现的,为了使决策树能够处理海量数据,基于大数据的算法程序做了很多优化工作,通过引入高效的数据结构和数据调度策略等来改造决策树学习过程。大数据技术可以提供大容量样本数据存储和高效的并行计算能力,为机器学习用于网络安全领域构建技术基础。

5. 安全联动防御

基于大数据的网络安全技术,具备从一片森林中快速找到一片坏叶子的能力,这就是大数据安全分析中心。大数据安全分析中心具备发现网络攻击的能力,但不具备阻断网络攻击的手段,需要与安全策略中心配合,联动防火墙、IPS等一系列边界安全防护设备来阻断攻击行为。

结束语

针对安全大数据趋势和传统安全分析工具面临的问题,Gartner早在2012年提出“信息安全正在变成一个大数据分析问题”,业界也出现了将大数据分析技术应用于信息安全的技术,即:大数据安全分析(Big Data Security Analysis,简称BDSA)。借助大数据安全分析技术,能够更好地解决海量安全数据采集、存储、计算问题,结合机器学习和数据挖据算法,能够智能地洞悉信息与网络安全的态势,主动应对新型复杂的威胁和未知多变的风险为企业构建多层次、立体化的安全防御体系。

分享到
关闭