调研 | 李喆
撰写 | 李喆
随着Hadoop分布式技术的渗透率不断提升,产生了很多新的需求,安全就是其中之一。
当越来越多大型企业将生产系统运行在Hadoop集群上,合规性需求愈发明显,需要对整套系统进行4A统一安全管理(认证、账户、授权、审计)。然而Sentry等开源工具在这方面相对薄弱,于是出现了针对Hadoop技术架构提供安全解决方案的厂商,观数科技就是其中之一。
观数科技成立于2015年,产品主要由网管代理Gateway、管理后台Admin、插件三部分组成。
网管代理Gateway等于在物理隔离区和公共区有一个桥梁,分析师必须通过身份验证后才能提交相关数据或分析任务;管理后台Admin主要配置相应的用户和权限,采取图形界面,不需要进行代码级操作;插件主要是对用户资源设置不同的权限。
三个部分合在一起,形成一套完整的Hadoop安全解决方案。
因为Hadoop仍处于发展早期,主要在金融、运营商领域有大量应用,因此,观数科技主要瞄准了这两个市场,重点服务运营商省级分公司和股份制银行,在多家公司进行POC测试。
从国外来看,Hadoop安全市场同样处于早期阶段,这个领域的代表公司BlueTalon2016年8月刚刚完成1600万美金的A轮融资,未来这部分市场规模应该与传统数据库审计市场相当。但现阶段主要是合规性需求,这会导致整个市场相对分散,集中度很难提升。
近期,爱分析对观数科技创始人李科进行访谈,他对观数科技的创业初衷、业务模式以及未来战略,以及他对未来市场空间的判断,现将部分内容分享。
解决Hadoop应用防护问题
爱分析:Hadoop发展到现在也就十年时间,国内起步更晚,观数科技为什么考虑从Hadoop这个方向入手去做安全?
李科:这跟我自己从业经验有关系,以前我是做主机安全, 当时做的产品主要是针对操作系统,比如Windows、Linux,这些操作系统的单体服务器面临的安全问题。
做了十年以后我发现一个趋势,甲方的资金投向已经开始转向云计算、虚拟化,很少有人再去买小型机。单体的服务器,由于硬件的瓶颈已经到性能瓶颈。
当时选方向的时候,一条是虚拟化的,像OpenStack,它解决是一个结构化的问题。这个方向的竞争比较多,一些大厂都进来了,比如说阿里、UCloud。
我们就看了另外一个方向,解决性能问题,就是把多个机器变成一个机器来使用、分布式的架构,正好赶上国内大数据的风口,我们发现Hadoop是一个事实性的主流产品。
特别是经过十年发展,Hadoop的生态建得非常完善。对比安卓,同样在不是很完善情况下还能发展那么好,就是因为它的生态体系比较完善。当积累大量应用的时候,作为一个核心的底层框架是大家都认可的。即使有一个新技术比他效率更高,那也很难淘汰掉,因为它是生态存在,所以我们就选择这条路。
国内专注于这一块的厂商应该说没有,很多发行版等等解决方案提供厂商,都是拿一些开源的项目做集成,产品化做的很差。我觉得这是一个市场空白点;同时,我们又去看了国外的一些厂商,像BlueTalon、Zettaset,都是专门从事Hadoop这个领域的安全方向。
所以我们认为这个模式在国外被证明是有市场的,国内又正好是空白,加上我们原来做十几年主机加固的这种理念以及技术,我们觉得在分布式上去把它落地是很有可能的。
爱分析:这个产品主要为客户解决了哪些需求?
李科:从Hadoop这个产品立项开始,它解决性能问题,就没有过多考虑安全,所以Hadoop的认证方式本来就是一个非常简单方式,他没有用户名和密码的概念。所有的用户只要端口相连,就可以直接读写数据。
因此,首先我们认为最基本的功能就是分布式的4A是要完成的,就是账户、授权、认证和审计,这是最基本的四要素。在传统IT架构里这四点是必须要达到,如果说系统账户认证体系都没有,那很显然它不安全,而Hadoop没有这些,所以我们第一个踩的点就是先把4A完整的实现。
第二个,很多用户把Hadoop部署在内网,不会直接对外,这种情况下会造成一个很大的问题。分析师很难直接接触到数据,往往是自己编写了一堆MapReduce分析脚本,交给网管,网管用U盘方式拷到内网里面,在内网做运算,再把结果拷出来,中间的沟通环节是非常消耗成本。
还有一个问题,分析师的提交后,如果网管很忙,直接扔到集群里面跑任务上报错了,不能够及时地把错误信息反馈给分析师的。这种护城河架构是非常影响生产效率。
所以,我们在隔离区和分析师之间,做了一个叫GateWay安全代理。分析师原来是不能够进到内网,但是我把内网的Hbase、Hive等分析功能,全部代理在中间环节。分析师可以直接登录到网关去做分析,网关本来就有4A,在网关上做认证、授权、审计。
此外,任务的安全检查也是个需求。虽然说有物理隔离,但分析师写的分析脚本,是需要去调用很多资源测试,如果写的脚本有问题,网管没有检查出来,破坏性的操作就已经发生了。
爱分析:所以,GateWay是替代原来的防火墙?
李科:对,主体是软件,我们也提供硬件的形式。
爱分析:Oracle等传统IT架构中有类似的产品?
李科:我们做的产品是从传统数据库演变到分布式架构里的,需求是一样的,采用的技术不同。
爱分析:提供Hadoop发行版的公司也会做这部分业务?
李科:有一些类似的功能。开源组件里面有一些比较优秀的项目,如Sentry、Ranger,这些开源组件和我们的区别主要有:
第一,我们在产品化程度做的可能更好一些。开源组件的界面不是特别友好,改很多配置文件,需要代码级操作,我们整体是图形界面的功能。
第二,我们完全是自主核心技术的产品,从合规性上讲,我们在等级保护测评等方面更符合国内标准。
另外,刚才我说的这种来自业务的需求,开源组件也是没有的。
定位运营商和金融行业客户
爱分析:现在定位客群有哪些?
李科:虽然安全是个普适性很强的需求,但是从行业应用的角度来说,我们看到的两个行业是Hadoop技术发展和使用比较成熟的。一个是金融行业,银行、保险等;第二是运营商。
爱分析:这是怎么判断的?
李科:运营商因为积累了很多的用户行为数据,他们需要做DPI分析、精准营销、用户深度需求挖掘。他们底层用Hadoop已经有五六年了,而且运营商比较大的集群已经达到两三千台的规模。我们现在接触的股份制银行,基本上都会有一个大数据部门用Hadoop来做分析。
所以,我们不需要花时间去教育市场,它们也能很迅速地提出自己的在安全问题和风险上的要求。
爱分析:这个产品是如何定价的?与哪些因素有关?
李科:第一个是集群规模,我们产品前期投入的成本其实并不高,一整套管理中心客单价在三四十万,这是基础设施建设。更多收费来自后期运营,因为我们是一种运营模式,按节点数每年的授权费来收取。
爱分析:前期部署安装大概需要多长时间?
李科:部署安装基本一天足够,但部署完我们要给用户做培训,让用户知道怎么去配规则,一般情况下一两天基本上就完成了,也要看用户的业务复杂度。
爱分析:观数科技的这个产品会占到整个Hadoop基础投入比例大概会是多少?
李科:我们看到其他Hadoop发行版厂商的报价,一个节点的建设成本,从硬件到软件大概是20万一个,我们切的是其中5%。
爱分析:现在很多客户搭建Hadoop集群都用的开源版本,基于Hadoop安全的产品客户是否会接受?
李科:分阶段,很多公司在最开始尝试建大数据集群的时候,需要有一个了解学习的过程,这个过程大家付费意愿是不强。我们刚才指的这两个行业已经过了学习和认知的过程,所以对于商业版的产品和服务,那只要需求能够满足,它们是有付费意愿。有些行业的数据与个人隐私关系不是特别大,它们就会采用开源版。
爱分析:一个运营商的数据中心大概会有多少节点?
李科:各省差别比较大,有南北差异。北方相对滞后一些,一般40-50个节点,南方省一般有200-300个节点。
爱分析:那股份制银行一般有多少个节点?
李科:200-300个节点比较常见。
潜在市场规模数十亿
爱分析:从定位上,观数科技的定位主要是与原来防火墙一致,属于边界安全?
李科:目前来看,可以放在边界安全里,但是我们解决的并不仅仅是边界的问题,更多的是访问控制。就像WAF和防火墙都是在边界上,但是防火墙解决是网络层的问题,WAF解决的基于Http协议上所发生的访问控制,更多是识别你协议里面的风险。
爱分析:整个安全市场盘子不大,观数科技又是切的比较细分领域,未来市场空间是怎么考虑的?
李科:主要还是看增量吧,我觉得当前可以看数据库审计的市场,去年几个厂商在这部分收入加起来有20-30亿,所以我觉得同样的在大数据领域,几十亿市场是存在的。
从每年爆发安全事件以及国家的重视程度,我们认为未来三年这个领域有望变成一个百亿级市场。
爱分析:这个市场未来集中度如何?
李科:比较难集中起来,每个客户的需求都不一样,行业有行业的需求,业务部门有业务部门的需求,很难做到硬件防火墙这种集中度。即便是标准统一,也不可能厂家统一,不像C端有可能出现大集中。
每一个厂商的销售渠道和行业背景、关系是不一样,不一定小公司就做不了业务,所以很难出现集中在某一家做的非常大。
爱分析:国外是否存在合适的对标公司?
李科:和我们最像就是BlueTalon,这算是直接对标。