运营商如何增强大数据平台的底层防护能力？

大数据是像煤和石油一样的的战略资源。国内电信行业因为市场集中、用户聚合性高、网络业务状态感知能力强等特点，积累了大量网络侧、用户侧的数据。

这些数据除具备体量大、种类多、结构复杂等大数据普适特点外，还具有区别于其他行业大数据的特殊属性，例如特别真实、特别敏感、商业价值高等。

运营商对于大数据运营能力的把控，直接关系着能否应对BAT和OTT企业的冲击，以及今后的发展。

很多运营商也都在大数据方面布局，但都把重心放在精准营销、数字化产品创新、数字化运营管理、个性化客户服务、智能运维上，对大数据安全则关注较少。

作为一家专业的安全厂商，我们认为，对于运营商来说，安全是评判大数据运营能力的一个关键尺度。

如何解决大数据在「合理使用」和「安全防护」之间的矛盾，是我们首先要关注的焦点。

经过几年的快速发展，Hadoop已经成为最主流的分布式存储架构，很多运营商都将Hadoop作为大数据战略的一部分。

但随着研究和实践的深入，安全成为制约其发展的瓶颈。

如何强制所有接入大数据平台的客户端用户及应用进行验证？

如何对不同身份的访问者，设置不同的访问权限？

如何获取细颗粒度的审计记录？

如何在整个生命周期内，避免大数据泄露风险？

尤其是今年发生多起勒索攻击，Hadoop大数据安全更是成为很多运营商朋友关注的痛点。

但就目前而言，还有很多厂商是用传统技术保障大数据安全，而观数是将重心放到了改造大数据处理工具上。

经过一系列技术攻关，我们率先推出了一款大数据安全解决方案：

通过在Hadoop基础平台部署大数据安全防火墙BIGDAF，形成一个包含统一认证、统一授权、统一审计、基线检测、漏洞扫描等安全防护功能的大数据管控平台。

BIGDAF由三部分组成：

1.网关代理。等于在物理隔离区和公共区有一个桥梁，以前需要网管拷进数据，现在则必须通过身份验证后，提交相关数据或者分析任务。

2.插件。对应用户资源，在不同的应用里安装插件，对用户资源设置不同的权限。

3.管理后台。配置相应的用户和权限，配置完之后由网关代理和插件去执行。

既满足现目前的等级保护制度，也满足今年六月份实行的《网络安全法》中关于4A体系（账户、授权、认证、审计）等业务合规性要求。

从功能性而言，BIGDAF能满足五大安全需求。

一、统一认证

统一认证，是指实现对大数据平台所有操作者身份的合法性检查。

我们知道，Hadoop在设计之初是缺乏认证机制的，只要通过linux的认证，就可以随意访问Hadoop系统。

后来人们发现了这一漏洞，并推出了一些能够实现认证的组件。

但这些组件开放程度很低，少有人用，也少有人会用，有些甚至会对集群性能有比较大的影响。

除开源组件之外，还有一些传统的解决方案。他们通常是利用代理服务器或堡垒机来分隔用户和大数据平台，在代理服务器或堡垒机上完成用户访问权限的验证和控制。

这种解决方案会有三个问题：

对于绕过代理服务器直接访问集群的情况，无能为力；
数据量很大的情况下，代理服务器将直接崩溃；
堡垒机无法做到细粒度的权限控制，无法精确控制到字段级。

观数自主研发的BIGDAF，部署方便，不需要对Hadoop源码做二次开发。通过设置一条「护城河」，防止用户未经授权的访问，避免数据泄密。

经过多次攻防演练和在运营商大数据平台部署实践，BIGDAF被证明是一种严格的、安全的、不能轻易被攻击、也不能轻易被绕过的认证方式。

二、统一授权

统一授权，是指对用户对大数据平台资源合理分配的技术，不同用户对不同资源有不同的访问权限。

业务层面的分析师都应该知道，不是所有用户都应对所有数据具有访问权限，我们需要粒度更细的权限划分，细化到表、字段（数据库）和文件（HDFS）的操作权限配置。

BIGDAF能够根据不同的人员层级、不同的业务种类、不同的数据属性，设置不同的访问权限，也就是我们所说的数据访问权限的角色化、任务化、属性化。

1.角色化

做征信的分析师，访问征信的数据是合理的。但是做征信去访问人脸识别的数据，实际上业务没有这个需求的，而且也是不合规的。

运营商大数据的类型和结构都很复杂，我们需要基于不同的业务角色，设置不同的访问权限。

2.任务化

在自动化生产的过程中，我们需要把我们的任务在启动的时候赋予它相应任务的访问权限，任务结束以后把这个权限收回来。

3.属性化

任何数据都有自己的属性，有的是机密性数据，有的是完整性数据，对于不同的属性标签，我们可以设置不同的访问权限。

运营商大数据平台存储了大量的敏感、隐私数据，我们应该坚持应用最少权限原则，提供细粒度的授权，才能最大程度的避免数据泄露。

三、统一审计

统一审计是指收集、记录、统计用户对大数据平台各组件、数据资源及应用系统的访问情况。

当用户访问大数据集群及数据资源时，会产生大量的痕迹数据，通过这些痕迹数据的分析，我们可以对很多安全问题进行预警。

我们要解决用户访问大数据集群产生的数据的安全审计问题，对审计数据进行统计分析和安全预警。

这样就可以减少因为用户滥用而导致的大数据平台的安全事件、安全危害。

并且方便在出现安全事故时，追踪原因，追究相关人员的责任，

四、基线检测

基线检测是针对大数据环境的各个组件进行安全配置的合规性检查，覆盖大数据平台的基础设施、网络系统、数据处理层、数据采集层、数据存储层等各层级系统结构。

BIGDAF从源头和根本上控制和提高大数据系统的安全性：

覆盖面广，涵盖大数据平台常见框架和组件。
可操作性强，针对每个检查项，均有简洁的操作说明。
定期更新，周期性的对基线进行补充和更新。
安全基线将作为设备和系统安全准入的必要条件。

五、漏洞扫描

由于大数据平台存在软件配置、编码、应用组件、口令弱化等原因，当系统不能够及时更新和测试缺陷，可能会存在高危安全漏洞，容易被攻击者利用入侵，出现信息篡改、信息丢失等情况。

BIGDAF通过漏洞扫描，能了解大数据平台的安全设置，及时发现安全漏洞，评估风险等级。

并能根据扫描的结果更正网络安全漏洞和系统中的错误设置，实现主动的防范，能有效避免攻击，做到防患于未然。

大数据既为运营商带来了机遇，也带了挑战。

今年六月份《网络安全法》中明确了网络产品和服务提供者的安全义务、以及关键信息基础设施重要数据跨境传输的规则。

保护大数据安全，不仅关系运营商、用户，也关系到国家安全。

经过在多次攻防演练和多省运营商的POC，BIGDAF的可信任性、可用性、可追溯性、保密性、健壮性都得到了验证。

未来我们会继续完善这一套安全解决方案，通过落地案例，推动国内大数据安全标准的建立。