大数据是像煤和石油一样的的战略资源。国内电信行业因为市场集中、用户聚合性高、网络业务状态感知能力强等特点,积累了大量网络侧、用户侧的数据。
这些数据除具备体量大、种类多、结构复杂等大数据普适特点外,还具有区别于其他行业大数据的特殊属性,例如特别真实、特别敏感、商业价值高等。
运营商对于大数据运营能力的把控,直接关系着能否应对BAT和OTT企业的冲击,以及今后的发展。
很多运营商也都在大数据方面布局,但都把重心放在精准营销、数字化产品创新、数字化运营管理、个性化客户服务、智能运维上,对大数据安全则关注较少。
作为一家专业的安全厂商,我们认为,对于运营商来说,安全是评判大数据运营能力的一个关键尺度。
如何解决大数据在「合理使用」和「安全防护」之间的矛盾,是我们首先要关注的焦点。
经过几年的快速发展,Hadoop已经成为最主流的分布式存储架构,很多运营商都将Hadoop作为大数据战略的一部分。
但随着研究和实践的深入,安全成为制约其发展的瓶颈。
如何强制所有接入大数据平台的客户端用户及应用进行验证?
如何对不同身份的访问者,设置不同的访问权限?
如何获取细颗粒度的审计记录?
如何在整个生命周期内,避免大数据泄露风险?
尤其是今年发生多起勒索攻击,Hadoop大数据安全更是成为很多运营商朋友关注的痛点。
但就目前而言,还有很多厂商是用传统技术保障大数据安全,而观数是将重心放到了改造大数据处理工具上。
经过一系列技术攻关,我们率先推出了一款大数据安全解决方案:
通过在Hadoop基础平台部署大数据安全防火墙BIGDAF,形成一个包含统一认证、统一授权、统一审计、基线检测、漏洞扫描等安全防护功能的大数据管控平台。
BIGDAF由三部分组成:
1.网关代理。等于在物理隔离区和公共区有一个桥梁,以前需要网管拷进数据,现在则必须通过身份验证后,提交相关数据或者分析任务。
2.插件。对应用户资源,在不同的应用里安装插件,对用户资源设置不同的权限。
3.管理后台。配置相应的用户和权限,配置完之后由网关代理和插件去执行。
既满足现目前的等级保护制度,也满足今年六月份实行的《网络安全法》中关于4A体系(账户、授权、认证、审计)等业务合规性要求。
从功能性而言,BIGDAF能满足五大安全需求。
一、统一认证
统一认证,是指实现对大数据平台所有操作者身份的合法性检查。
我们知道,Hadoop在设计之初是缺乏认证机制的,只要通过linux的认证,就可以随意访问Hadoop系统。
后来人们发现了这一漏洞,并推出了一些能够实现认证的组件。
但这些组件开放程度很低,少有人用,也少有人会用,有些甚至会对集群性能有比较大的影响。
除开源组件之外,还有一些传统的解决方案。他们通常是利用代理服务器或堡垒机来分隔用户和大数据平台,在代理服务器或堡垒机上完成用户访问权限的验证和控制。
这种解决方案会有三个问题:
-
对于绕过代理服务器直接访问集群的情况,无能为力;
-
数据量很大的情况下,代理服务器将直接崩溃;
-
堡垒机无法做到细粒度的权限控制,无法精确控制到字段级。
观数自主研发的BIGDAF,部署方便,不需要对Hadoop源码做二次开发。通过设置一条「护城河」,防止用户未经授权的访问,避免数据泄密。
经过多次攻防演练和在运营商大数据平台部署实践,BIGDAF被证明是一种严格的、安全的、不能轻易被攻击、也不能轻易被绕过的认证方式。
二、统一授权
统一授权,是指对用户对大数据平台资源合理分配的技术,不同用户对不同资源有不同的访问权限。
业务层面的分析师都应该知道,不是所有用户都应对所有数据具有访问权限,我们需要粒度更细的权限划分,细化到表、字段(数据库)和文件(HDFS)的操作权限配置。
BIGDAF能够根据不同的人员层级、不同的业务种类、不同的数据属性,设置不同的访问权限,也就是我们所说的数据访问权限的角色化、任务化、属性化。
1.角色化
做征信的分析师,访问征信的数据是合理的。但是做征信去访问人脸识别的数据,实际上业务没有这个需求的,而且也是不合规的。
运营商大数据的类型和结构都很复杂,我们需要基于不同的业务角色,设置不同的访问权限。
2.任务化
在自动化生产的过程中,我们需要把我们的任务在启动的时候赋予它相应任务的访问权限,任务结束以后把这个权限收回来。
3.属性化
任何数据都有自己的属性,有的是机密性数据,有的是完整性数据,对于不同的属性标签,我们可以设置不同的访问权限。
运营商大数据平台存储了大量的敏感、隐私数据,我们应该坚持应用最少权限原则,提供细粒度的授权,才能最大程度的避免数据泄露。
三、统一审计
统一审计是指收集、记录、统计用户对大数据平台各组件、数据资源及应用系统的访问情况。
当用户访问大数据集群及数据资源时,会产生大量的痕迹数据,通过这些痕迹数据的分析,我们可以对很多安全问题进行预警。
我们要解决用户访问大数据集群产生的数据的安全审计问题,对审计数据进行统计分析和安全预警。
这样就可以减少因为用户滥用而导致的大数据平台的安全事件、安全危害。
并且方便在出现安全事故时,追踪原因,追究相关人员的责任,
四、基线检测
基线检测是针对大数据环境的各个组件进行安全配置的合规性检查,覆盖大数据平台的基础设施、网络系统、数据处理层、数据采集层、数据存储层等各层级系统结构。
BIGDAF从源头和根本上控制和提高大数据系统的安全性:
-
覆盖面广,涵盖大数据平台常见框架和组件。
-
可操作性强,针对每个检查项,均有简洁的操作说明。
-
定期更新,周期性的对基线进行补充和更新。
-
安全基线将作为设备和系统安全准入的必要条件。
五、漏洞扫描
由于大数据平台存在软件配置、编码、应用组件、口令弱化等原因,当系统不能够及时更新和测试缺陷,可能会存在高危安全漏洞,容易被攻击者利用入侵,出现信息篡改、信息丢失等情况。
BIGDAF通过漏洞扫描,能了解大数据平台的安全设置,及时发现安全漏洞,评估风险等级。
并能根据扫描的结果更正网络安全漏洞和系统中的错误设置,实现主动的防范,能有效避免攻击,做到防患于未然。
大数据既为运营商带来了机遇,也带了挑战。
今年六月份《网络安全法》中明确了网络产品和服务提供者的安全义务、以及关键信息基础设施重要数据跨境传输的规则。
保护大数据安全,不仅关系运营商、用户,也关系到国家安全。
经过在多次攻防演练和多省运营商的POC,BIGDAF的可信任性、可用性、可追溯性、保密性、健壮性都得到了验证。
未来我们会继续完善这一套安全解决方案,通过落地案例,推动国内大数据安全标准的建立。