专题·原创|阿里巴巴技术副总裁、首席安全专家杜跃进:数据安全能力将成为大数据时代的重要竞争力

2017-10-09 数聚世界 数聚世界

在大数据应用领域,我国处于世界领跑位置,但是原来已有的和数据安全相关的法律法规或者标准,都不能完全适应新的情况。我们可以参考已有的做法,但是绝对不能照搬别人的东西。基于我们的实践,勇于创新,大胆实践,打磨出以数据安全能力成熟度模型为核心的一套方法,让数据安全能力好的企业在竞争中获得更好的机会,进而激发产业界自发提升自己数据安全能力的积极性,这样才能达到改善整个社会数据安全状态的效果。


一、大数据安全重要但不要陷入“数据恐慌”

大数据时代,或者叫DT时代,所有的产品、应用、服务源源不断地产生数据,这些数据正带来无穷无尽的创新机会,推动社会各方面不断发生匪夷所思的革命性变化。大数据在健康医疗、金融商务、物流快递、城市管理、社会治理、生产制造等领域都具有无穷的潜力,其带来的革命性进步令人神往。根据IDC预测,到2019年,大数据分析的年产值将达到1870亿美元。数据,被称为新时代的“黄金”或者“石油”,正成为企业的核心资产、创新的关键来源和国家的战略资源。

“人之熙熙,皆为利来”。大数据应用的场景越来越多、越来越深入。例如,根据关键基础设施的数据、特定行业的大规模基础数据,或者生产数据,能够分析出一个国家的重要战略情报,直接关系到国家安全。可以说,数据越来越值钱,自然也成为违法犯罪分子的重点关注目标。全球各种各样的数据安全相关事件层出不穷,包括直接盗取数据进行倒卖、用数据构建精准诈骗活动,甚至对用户数据进行加密,然后勒索赎金。在我国,尤其是“徐玉玉事件”以来,大家不但对电信诈骗的严重危害和应对方案展开了非常密集的讨论,而且对导致精准诈骗的信息泄露问题十分关注。数据安全正在成为全世界的热点安全问题。

从当今人类社会发展阶段来看,如果数据安全问题失控,会影响全社会对数字经济的信心,阻碍人类社会的进步。从拥有数据的行业、企业或者机构来说,数据安全也有非常重要的具体意义:下一个类似“徐玉玉事件”发生的时候,你的机构是否要为其中的信息泄露担责?当你雄心勃勃地推进商业计划的时候,会不会因为自己数据安全做得没别人好而失去机会?因此,全社会对数据安全的高度重视是一件好事。但是,我们也需要警惕,避免陷入“数据恐慌”的另外一个极端中。

“数据恐慌”的现象是真实存在的,国内国外都是如此。越来越多的消费者现在是“谈数色变”,他们认为,拥有大数据的公司或者机构,会利用手里的数据监视他们的一举一动,窥探他们的隐私,掌握他们的所有秘密。学者和政策制定者对数据安全的关注方向越来越多地放在禁止数据采集、使用或流动等环节上,开始制定严格的标准或者法律法规进行约束。安全和发展是不可分割的。安全的价值在于保障发展的可持续,如果“因噎废食”的安全策略扼杀了发展的话,数字经济的梦想会成为空想,那么多造福人类的创新会成为肥皂泡,安全也彻底失去了意义。

不能说对数据安全的担心是多余的或者没有根据的,甚至确实有一些案例证实过那些令人担心的场景。但是,并非没有办法让大数据在造福人类的同时避免出现大家担心的问题,产业界也有高度重视数据安全的企业和具有很好参考价值的数据安全实践。我们不能滑入“数据恐慌”带来的深渊,只能寻找、完善和推广更加科学的大数据安全技术、管理乃至监管治理的方法,在安全和发展中找到最佳的平衡。达到这个目标的核心抓手,就是提升每个组织的数据安全能力,并且以此为基础,推动全行业数据安全状态的改善。

二、大数据时代的数据安全而非大数据的安全

关于什么是“大数据安全”,如果从纯粹学术研究角度,那么对“大数据”场景或者系统下特定的安全问题进行研究,这无可厚非,但是想要解决实际问题的话,例如企业管理人员需要切实保护自身和用户的数据安全以便护航企业长远发展,或政府官员致力于对数据滥用和泄露等严重问题加以治理,从而让数据的价值能够发挥等,就应该从究竟要解决什么实际问题这个角度来看。

在“徐玉玉事件”中,她的个人信息是被犯罪分子通过省高考网上报名信息系统这个网站窃取的。这个信息系统显然不是“大数据系统”,这些数据也不属于“大数据”,所以,这次数据窃取也算不上所谓的“大数据安全”。已经披露的大量案例,也都是类似的情况。因此,纠缠什么是“大数据”,然后再定义什么是“大数据安全”,是没有意义的。

真正需要解决的问题是,在今天的大数据环境下如何保护数据安全。和以保护静态文件或者数据库等传统数据安全相比,“大数据环境下的数据安全”具有其特殊性,目前在数据安全领域面临非常多的新挑战和新问题,过去的工具、方法和标准都需要改进。

从用户的角度来看,在今天万物智能、万物互联的大数据环境下,用户在工作和生活中几乎每时每刻都在产生各种数据,并且被各种各样不同形态的产品、服务、设备、机构从各种不同的维度采集、存储、使用甚至交易。用户的账户信息、个人信息等数据,在很多业务平台或者服务中都有关联。在这个过程中,用户的隐私、自身权益和安全如何保证,是面临的新挑战。很多专家承认,今天已经不可能有个人隐私了,很大程度上就是因为这个原因。即便拥有用户数据的某个产品或者机构很好地保护了用户隐私数据,但是对于有目的的攻击者来说,总是可以通过各种其他渠道获得各种数据,然后进行关联、汇总和还原。

从数据本身的角度看,在今天的大数据环境下,数据的产生、流动、处理等过程比以前要丰富和复杂很多,数据嵌入在业务的流程中,和业务无法分割,而业务环境更加开放,业务生态异常复杂,没有清晰的系统、业务或者组织边界。在非常多的场景下,对数据的处理效率有很高的要求,导致原来的很多安全技术手段无法适应。

此外,和数据相关的应用、人员等环节,都有快速变化的特点。互联网应用的升级周期非常短,业务和代码的变化都很频繁,代码或者应用之间的关联关系复杂,这些也导致系统层面的安全风险控制难度大幅增加。

三、数据安全面临的具体威胁

一般来说,安全可以分为四层,自下而上分别为物理安全、系统安全、数据安全和业务安全。物理安全指的是包括电磁泄漏等在内的物理环境的安全;系统安全指的是从操作系统到上层应用在内实现各种功能的软件系统的正常运行(网络本身也可以看成系统);业务安全指的是业务逻辑方面的安全;数据安全是和以上内容不同的相对独立的一块,指的是信息系统中产生、存储、处理的数据本身的安全。这些数据要么是和一个组织的客户相关,要么是和组织自己相关。当然,这几个不同层次的安全是相互关联的,例如物理安全层面的电磁泄漏、系统安全层面的网络入侵等,也会导致数据被窃取。

我们今天关心的数据安全威胁,主要包括数据被滥用、误用和被窃取这几种情况。

滥用指的是对数据的使用超出了其预先约定的场景或目的。例如员工在没有工作场景支持的情况下访问了客户的个人敏感信息,这是大量内鬼倒卖个人信息而组织却不知道的主要原因之一。需要强调的是,在今天的大数据业务环境下,无法做到针对每一条个人信息、每一个员工在每一个工作场景的请求下,进行单独的数据访问许可授权。

误用指的是在正常范围内在对数据处理的过程中泄露个人敏感信息。这是在大数据时代变得更加突出的典型问题。大数据时代,是通过对数据的各种分析,带来各种业务创新、保持业务价值的。但是,这个分析过程,是否泄露某个特定人的隐私,就属于是否误用的问题。企业如果知道用户的喜好和需求,就可以给用户发送更加精准的广告、提供更加适合的服务,但是在这个过程中,用户是不希望自己的一举一动都被企业了如指掌地看到,自己成了没有隐私的透明人。如今,大家都在采集和分析数据,但是很多企业还缺乏技术能力或者安全意识,避免这些数据在分析处理的全过程,不会泄露用户的隐私。

数据被窃取在本质上和系统安全相关。外部或者内部的网络攻击者,通过各种技术手段非法入侵系统,目的可能是为了偷取数据,这就变成数据安全问题。如今,大量网站或应用的安全防护水平不高,导致黑灰产人员可以从中大量窃取数据,最终令用户防不胜防。另外,内部人员入侵作案,偷取客户数据或者公司商业秘密,数量往往比外部入侵的比例要大很多。可是,很多企业依然只重视对外部入侵的防御而忽视了内部入侵的防范,或者只重视了系统安全层面的防御能力,而没有意识到数据安全层面的不同。

四、“以数据为中心的安全”是核心技术思想

在目标是数据安全的今天,需要实现从以系统为中心的安全,切换到以数据为中心的安全,明确保护信息系统安全和保护数据安全。

以系统为中心的安全,目标是保护某个系统的正常运行,就如同保护白宫的安全;以数据为中心的安全,目标是保护数据本身的安全,就如同保护美国总统,这是两件不同的事情。如果美国总统总是待在白宫里,那么这两件事有及其巨大的关联性,保护好白宫,基本上等同于保护好美国总统。但是,美国总统还经常离开白宫,这时候,保护白宫安全和保护美国总统安全,就不是一回事了。

大数据时代,数据始终是在各个系统之间流动的。以数据为中心的安全,始终以要保护的数据为主线,伴随数据的生命周期进行安全保护。这时候,不同环节所涉及的信息系统、运行环境、业务场景和操作人员,都成为数据安全主线的支撑。如果这时,某个系统被入侵,并不等于数据安全的目标就遭到最终的破坏,反之某个单一环节的安全能力再强,也不代表整体数据安全保护的能力就最好。

在数据生命周期的不同阶段,数据面临的安全威胁、可以采用的安全手段,可能很不一样。在数据采集阶段,可能存在采集数据被攻击者直接窃取,或者个人生物特征数据不必要的存储面临泄露危险等;在数据存储阶段,可能存在存储系统被入侵进而导致数据被窃取,或者无应用场景支持访问用户敏感数据,或者存储设备丢失导致数据泄露等;在数据处理阶段,可能存在算法不当导致用户个人信息泄露等。把不同阶段从不同角度面临的风险放到一起进行综合考虑,建立强调整体而不是某个环节安全能力,是以数据为中心的安全的核心技术思想。

五、衡量组织的数据安全能力是核心管理思想

从数据安全管理角度来看,在目前大数据应用和安全的环境下,最迫切的工作是如何从组织的视角看数据安全。换句话说,目前最需要的是,如何衡量拥有数据的组织的数据安全保护能力。这个问题对组织自己、行业发展、以及大数据安全的行业监管来说,都是至关重要的。

从组织自己的角度来说,需要用这样的方式来证明数据在自己这里是足够安全的,从而不但对保护自己的数据资产心中有数,而且也能让自己的客户拥有信心。

从行业发展的角度来说,数据安全能力可以成为行业竞争中的一个重要指标。当不同的企业展开竞争的时候,谁能够证明自己的数据安全能力更高一筹,就可能为自己赢得竞争加分。这样会倒逼组织从市场发展的需求出发,提升自己的数据安全能力,而不是把数据安全作为自己的成本或应对监管的被动之举。

从行业监管的角度来说,同样可以根据组织的数据安全能力来确定其能否从事某类行业,数据安全能力更好的企业,才能够从事涉及更加敏感的数据相关的业务。

在个人信息保护方面,也可以根据数据安全能力的高低,决定一个组织能够采集哪些信息。对数据安全能力比较低的组织,对其产品或者服务所能采集的个人信息范围进行更加严格的限制,反之则相对宽松。这样才能达到既减少个人信息泄露风险,又不影响大数据产业发展。

安全能力不仅仅涉及技术,更加重要的是管理。因此,即便是一个产品或者服务本身没有漏洞,也远远不能证明数据就是安全的。组织需要为自己的数据负责,也只有组织才是最终的责任承担者,而不是某个产品。消费者和潜在的合作伙伴,希望判断的是一个组织的数据安全能力。实际上,在其他领域,这样的思路已经积累了非常多的成功经验,例如成熟度模型。

六、DSMM模型让数据安全能力成为竞争力

五个级别的能力成熟度模型(Capability Maturity Model,CMM)的理念已经比较成熟了,从最低的“初始级”,到可重复级、已定义级、已管理级以及最高的持续优化级。阿里巴巴借鉴CMM的思想,基于多年来的数据安全实践经验,制定了数据安全能力成熟模型,以帮助自身及合作伙伴组织评估和实施数据安全管理实践。就是说,将能力成熟度模型的分析方法借鉴到数据安全领域,基于数据的生命周期,结合组织中各个维度的安全能力,就可以构成一个三维的大数据安全能力成熟度模型DSMM(Data Security Maturity Module)。

数据在组织内的生命周期可以分为数据的产生、存储、使用、传输、共享、销毁六个环节,每个环节都包括更加详细的安全过程域,例如在产生阶段的过程域包括数据源鉴别及记录、个人数据合法收集、数据标准化管理、数据关系链路建立、数据管理职责定义、数据分类分级、数据留存合规识别等。每个环节会涉及不同的设备或者系统,它们的安全也需要受到关注。

从组织安全能力构成的维度,包括组织结构、资源过程、技术能力、人员能力四个部分。组织结构重点强调和企业相适应的数据安全组织的设计、职责分布和协作;资源过程重点强调组织内部数据安全制度规范、流程的落地,以及相配套的资源储备;技术能力重点强调确保数据安全的各种技术、产品和平台;人员能力重点确保各个数据安全相关岗位的专业人员能力。这四个维度的能力相互结合,构成企业的安全能力。

目前,以上述核心思想设计的大数据安全能力成熟度模型,已经在ISO、ITU等国际标准组织和国家信息安全标准化委员会立项,同时也在各种类型的单位中展开试点工作,以使其更具普适性。(本文刊登于《中国信息安全》2017年第5期)