总第8期
2016年12月刊
Practice    实践
Practice    实践
大数据安全分析在电信运营商的实践落地
文/舒园园
分享

Gartner认为,“大数据”是一种海量、高增长率和多样化的信息资产,它需要通过新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力。大数据无法使用传统的流程或工具进行处理和分析。

“大数据”这个术语最早期的引用可追溯到Apache.org的开源项目Nutch。当时,大数据用来为网络搜索引擎提供批量处理和分析大量数据集的能力。随着谷歌MapReduce和Google File System(GFS)的发布,大数据不仅用来描述大量的数据,还涵盖了处理数据的速度。从某种程度上说,大数据是数据分析的前沿技术。

在电信运营商领域,其数以亿计的客户决定了其庞大的网络规模和不断拓展并日益复杂的业务系统,由此带来的是海量、异构、高速、多变和低密度价值的业务数据和网络数据。电信运营商是继互联网之后,最具有大数据特征的领域。

一、大数据在运营商的运用现状

随着移动互联网时代的到来,三大运营商的传统业务受到巨大冲击。基于业务发展的需要,自2013年开始,三个运营商各自开始了对大数据技术的研究和运用。如中国电信通过和商业银行合作,帮助银行提高金融产业和理财产品营销的精准度与效率;中国移动为了快速推进大数据产品的大规模商用,成立了苏州研发中心;中国联通在借助大数据技术推进精准营销、支撑网络优化的同时,也在探索将这一部分能力提供给外部合作伙伴。

在网络安全领域,各大运营商的安全主管部门也开始了运用手中的安全日志、业务日志和网络流量等数据进行相关领域的研究、试点或应用。如中国移动集团从2015年开始利用大数据技术进行相关方向的研究,并在部分省公司试点,包括大数据日志审计、大数据机器学习和大数据异常行为识别等,经过一年的试点研究,取得了不错的研究成果,为后续的完善、落地和推广奠定了良好的基础。自2015年开始,中国电信江苏公司联合广州、上海研究院对大数据的相关技术和部分安全分析应用场景进行研究和试点,拟通过大数据技术对DDoS攻击进行精确溯源,并在溯源的同时进行僵尸网络分析。经过一年多的相关技术攻关和真实环境试点验证,在大数据的实验落地和应用场景方面取得了长足进步和实质进展。

二、基于大数据的精确溯源和僵尸网络分析

据国家互联网应急中心(CNCERT)发布的《2015年中国互联网网络安全报告》显示,DDoS攻击仍然是我国互联网面临的严重安全威胁之一。2015年前三季度,攻击流量在1Gbit/s以上的DDoS攻击次数近38万次,日均攻击次数达到惊人的1491次。而僵尸网络仍然是发动DDoS攻击的重要手段之一,另据CNCERT抽样监测,2015年共发现10.5万余个木马和僵尸网络控制端,控制了我国境内近2000万余台肉鸡。

为了对DDoS攻击事件进行分析溯源,有效追踪攻击来源,电信从2013年开始,在集团和各省公司分别开始建设安全管理平台攻击溯源子系统,面向总部级和省级安全运维人员,从集团全网视角和省公司视角对DDoS攻击事件进行持续地粗粒度溯源,利用DDoS攻击入口路由器的NetFlow流数据对每一次DDoS攻击事件追溯至城域网。

NetFlow流数据具有典型的高速、海量和非结构化的大数据特征,由于当时技术所限,在城域网以下的DDoS攻击出口路由器节点尚不能进行有效追溯,同样,也不能对全量NetFlow流数据进行集中存储并提供快速检索功能,取证环节同样有待加强。

为此,中国电信江苏公司联合广州、上海研究院,基于对大数据技术研究的积累,实现了对NetFlow流数据进行分布式采集、集中存储、DDoS攻击精确溯源和僵尸网络分析。

三、技术原理

所谓“溯源”,有两个方面,其一,攻击流量从哪来,即从哪里的肉鸡发出的流量;其二,谁在攻击你,即哪些C&C控制端发动的攻击。在对肉鸡的分析过程中发现,僵尸网络发动的DDoS攻击,通常其IP地址都是伪造的虚假IP,因此在当前的技术手段下,很难对攻击源IP地址进行精确定位。但通过采集运营商内部的NetFlow原始流量、DDoS攻击事件和路由器相关数据,结合一定条件,可以对DDoS攻击源端的物理路由器进行精确定位。例如,对河北省、江苏省和山东省三省运营商的NetFlow原始流量和路由器数据进行了采集,当天津市的某个业务系统被DDoS攻击后,根据攻击的时间范围、被攻击IP及其端口,在三省NetFlow原始数据和路由器数据中自动检索关联,可以对河北和江苏两省运营商内的源路由器进行精确定位。

另一方面,在分析僵尸网络过程中,通过对僵木蠕检测系统、恶意程序检测系统和WEB入侵监测子系统告警事件的采集和分析,可以得出事件中的源IP为疑似肉鸡,并记录至肉鸡黑名单;而通过设定相关时间和会话数量阀值,可以得出C&C控制端黑名单,如对NetFlow原始流量和恶意程序检测系统告警事件中的源IP和目的IP进行分析,若在30分钟内,某个IP和肉鸡的会话超过10个,则为疑似C&C控制端,超过50个,则为C&C控制端。诸如此类的分析算法不胜枚举。图1为安全事件概况图。

图1 安全事件概况

由于系统采用了大数据技术,无论是在海量数据存储规模还是快速的全文匹配检索方面,都较过去的技术方案有了颠覆式的革新,使得系统功能更具有实用价值。如可以快速地在海量NetFlow原始流量中,匹配和攻击事件相关的流量,并以网络拓扑图的方式,重现攻击路径,直观反映攻击源路由器和攻击目的路由器之间的连接关系;亦或是绘制跨省的攻击地图;还可以快速地绘制出攻击流量波动图。

四、真正的大数据

本次试点的大数据安全分析系统,在其部署实验过程中,面临的数据环境具有典型的大数据特征,该系统的大数据计算和存储架构已经经受住了真实环境的严酷考验。

  • 每天采集和分析的数据量达15亿条;
  • 每天存储占用达600GB;
  • 每省部署超过3台分布式采集器;
  • 采集对象包括超过40台路由器的NetFlow原始流量和其他6种安全系统的安全事件;
  • 数据涉及结构化数据和非结构化数据,其中二进制的NetFlow是典型非结构化数据;
  • 平均分析数据量达2万条/秒,业务高峰期的峰值分析数据量达15万条/秒;
  • 亿条数据秒级检索。
  • 采集方式超过3种;
  • 内置10余条利用大数据进行精确溯源和僵尸网络的分析算法;

五、大数据应用前景展望

1.精确溯源,可视展现

通过对大数据技术的有效利用,将DDoS攻击事件、NetFlow原始流量和路由器数据进行关联结合,可以对DDoS攻击事件进行详细描述和字段丰富补全,最终对DDoS攻击事件进行全局地图动态展示、攻击流量波动图绘制和攻击路径拓扑绘制,使DDoS攻击的溯源维度较非采用大数据技术的攻击溯源更精细了一步。

2.情报生产,滚动利用

通过对大数据技术的有效利用,系统对多种安全数据进行采集汇总,并结合一定规则、条件和阀值,可以判定肉鸡、C&C控制端等内外部威胁,使其作为企业的内部威胁情报,并在未来可以全国各省同步共享,在此基础上可以进行内部安全数据的滚动分析并产生新的威胁情报,进而发现在现有安全监控范围外的内外部威胁。

3.终端用户,安全门户

通过对大数据技术的有效利用,使为每条安全数据打上权限标识成为可能,每个省级管理员可以登录至系统的个人Portal页面,查看各自职责范围内的IT资产是否有肉鸡、是否被攻击。该种机制,有效促使了安全事件的及时上报和闭环处理。

4.流资源池,追溯取证

通过对大数据技术的有效利用,实现对省级运营商NetFlow流数据进行全量记录和存储,并提供秒级的全文检索功能,为事后取证、追溯取证、日志审计、安管平台和其他未知威胁等提供网络流量方面的佐证。从另一方面,还可能为其他系统提供更为全面的数据服务,如可以为其他抗DDOS类平台提供更为全面、更为精细的溯源服务。

六、结束语

在大数据快速发展并广泛运用的今天,运营商拥有天然的大数据资产,随着技术壁垒的打破、管理模式的变革和越来越多的业务创新,我们有理由相信在未来几年,融合大数据技术的安全平台将成为运营商精细化安全管理和安全数据运营的重要支撑平台和门户。

分享到
关闭