观数科技李科:用修建集市的方法,造出一所大教堂 2018-01-15 17:53


“去学计算机?天天坐在电脑前,你以后除了去打印店打打字,还能干啥!?”

在卫生系统工作了大半辈子的老李,理所当然的认为自己的儿子就应该当医生,即使不从事这行,也万万不能去干那打印店的营生。

而当年痴迷于计算机的李科,虽然打心底里不喜欢学医,但还是拗不过父亲,乖乖读了医学院,毕业后进了医院工作,一切看起来顺理成章。

那时的李科,丝毫看不出有日后能成为黑客的潜质。

直到2000年,已经工作了半年的他跟父亲提出要辞职参加成人高考,学自己一直感兴趣的计算机专业。这可把老李气够呛,所以出现了文章开头的那句话。这并非是老李“思想落后”,而是在20年前,绝大多数中国人未曾接触过网络,计算机在那时的主要功能就是打字。

不过,当离开安逸环境的的李科,如愿以偿的学了自己梦寐以求的计算机专业时,他发现父亲气头上的那句话也并非全无道理,学校教的都是一些类似 Word 怎么用,内存 CPU 主机是什么的内容,学这些东西,还真就像是在为打印店培养员工。

多年后,当李科再向我提起这段往事时,他早已成为深谙各种黑客技术的“老司机”,而且还创办了一家名为“观数科技”的网络安全公司,主攻大数据安全。

但当他聊起现在正在做的事情,我依然可以感受到,他还是当年那个不走寻常路的人,倔强的做着非主流的事情。

口述|李科 文|郭佳

走这条路,其实很孤独

我做了 10 多年安全了,有个很大的感触,就是现在各行各业都在关注大数据的东西,创业公司也很多,我们之前甚至还做过金融征信方面的大数据业务,但我发现国内很少有人提大数据的安全是其发展的保障。

比如众多公司都会用到的,对大数据进行分布式处理的软件框架 Hadoop ,它在这个领域应该相当于 Windows 在操作系统中的江湖地位,但国内对它的安全性缺乏关注,为什么?

他们只看到通过大数据分析所能带来的巨大意义,但是目前还没有深刻意识到在数据处理过程中的安全同样重要!我们之前可能听 BAT 这边对数据安全强调的多一些,他们会请专门的人做这块的安全,但对于很多其他的企业,他们同样需要这样的服务。

其实我们和BAT这些安全人员的目标一样,就是让所有的数据不能轻易被访问,访问的时候都要有记录,只不过我们做的东西是通用的,要给各行各业做服务。

为什么现在电信诈骗特别多,其中一个很重要的环节就是数据泄露。电信行业部门很多,而且各个部门负责的工作不一样,跨部门的数据调用非常频繁。比方营销部门、收费部门、用户行为分析部门等,都会互相之间调数据,那最后数据到底是谁泄漏的,说不清楚。观数现在要做的事情就是通过安全防护手段来避免类似事情的发生。

既然数据使用过程中是有合规性的需求的,就需要对整套大数据系统进行 4A 统一安全管理(认证、账户、授权、审计)。我们需要在隔离区和公共区建设一个桥梁,相关使用者必须通过身份验证后才能使用其中的数据进行分析,我们要为有可能使用到数据的每个用户配置相应的权限,而且要做到数据使用记录的可溯源。

就像安卓一样,它做得真有多好吗?不见得,大家都会吐槽它的安全,但还是离不开它。

虽然目前 Hadoop 的生态建得非常完善,已经积累了大量的应用,作为一个核心的底层框架已经得到大家的认可,但从它设计之初就没有过多的考虑安全,即使现在有一个新技术比他效率更高,安全性更好,也很难被淘汰。

由于国外的大数据产业发展更完善,所以针对 Hadoop 框架的安全厂商也相继出现了,像 BlueTalon、Zettaset 等,BlueTalon 也在 06 年的 8 月也拿到了 1600万美金的A轮融资,这说明我们做的这个模式在国外被证明是有市场的,但在国内基本是空白的。

我们原来做了十多年的主机加固,知道在什么系统里面面临怎样的风险,该怎么去保护,这些理念和技术是可以尝试在数据分布式上落地的。

目前,各个厂商还处于“试鞋”的阶段,大家原来都不穿鞋,我现在要把鞋卖给他们,其实挺难的,很多人会问,你为什么要做一个大家都听不懂的东西?

走这条路,其实挺孤独。

我们想用修建集市的方法,造出一所大教堂

我当年入安全这个行当,得到过很多人的帮助。

当年我只是一个对计算机很感兴趣的医生,2000 左右开始出现那种网上的聊天室,我一个土生土长的湖南人第一次通过网络跟北上广的朋友聊上了天,先开始新鲜,见着人就聊,后来慢慢开始找到了志同道合的网友。

那时候有个叫“黑客技术”的聊天室,它跟现在的QQ群还不一样,你白天在聊天室聊,晚上大家睡觉就自动解散了,从此这个聊天室就消失了。但黑客技术不一样,它有固定的名称,永远有人在建这个聊天室,而且里面基本上都是同一拨人,里面就讨论技术,不明白的地方可以请教。

我系统学安全知识最多的地方还是在网上的论坛、社区,那时候大家学到些什么,都会在论坛上写文章分享,我那时也写了好些文章,先开始请教别人,后来也会回答别人的问题,那时候大家真的都特别单纯,讨论的都是技术,发现漏洞后也会想方设法的联系厂家。

做安全所需要的东西很杂,要不断的学习,因为它有太多的应用场景了,凭一己之力远远不够。

做针对 Hadoop 框架的安全开源项目,也是同样的道理,随着应用越来越多,单凭自己一家公司是不够的。

当每一天都有更多的数据、用户和应用在加入Hadoop 时,这对整个数据驱动的组织来说是有好处的,但对安全人员来说,如何保护用户的数据访问安全是个大问题,很多对安全要求比较高的企业就要二选一,要么牺牲掉数据的安全性,要么将数据访问者拒之门外。

观数想搞的这个开源项目,就是想对正确的用户和应用程序提供精确的访问级别,在保证安全的同时不影响对数据处理方面的应用。

如何实现?我们现在可以提供统一的账号管理、基于密码的身份认证、支持RBAC(基于角色的权限)的访问控制、日志审计可视化、覆盖大部分大数据组件的 UI 代理和 REST API (满足约束条件和原则的应用程序设计代理)、支持三权分立、支持 HDFS、Hive、Hbase 等组件,预支持的组件有 ES、Kafka、Storm、Spark。

这些基础的安全防护功能,足以打消部分企业在筹建 Hadoop 大数据平台的一些顾虑,也能帮助一些已经建成的 Hadoop 大数据平台提高安全防护能力。

这也是我们名为“螭吻”的开源项目,观数就是想用修建集市的方法,造出一所大教堂。

为什么一定要做自主可控的大数据安全平台

创业之路并不容易,我也会遇到缺钱的情况,而且三天两头会有人找来,给钱让你搞个站,破个邮箱什么的,有人也会经受不住诱惑,但这条路肯定不能走。

即使是做安全,我们也选了一条不那么容易的路。

圈内不少人问过我,国际上已经有开源的大数据安全项目,为什么不拿来修改,而要自己重新做?

我觉得信息安全本就是一个对自主可控要求非常高的领域,就像是我们在花大力气做自己的芯片和操作系统,大数据安全领域也应该有国产自主可控的产品,特别是党政军等保密性要求很高的领域,这样,至少能让国人多一个选择。

国内的大数据方案提供商在搭建基础架构的时候,针对安全需求多数采取使用国外 Apache 开源项目,如:Sentry、Ranger、Knox、Kerberos等,国内在此领域相对处于空白,这些优秀的项目当中没有一个来自于中国。从另一方面看,目前开源组件解决的基本是“点”的问题,很难全面的发挥协同作用,这样其实并不能真正形成有效的方案。

做安全,只是做好自己的产品有时是不够的,做的再好,也不会用你的,因为软件不够,周边没有其他的协同效应,生态差。但是当做好一个产业的培育时,周边就会滋生出很多其他的企业来围绕这个框架做工作。这,才是我所想要的教堂。