【再序】这篇文章是我前段时间写的深入SOC2.0系列文章之一。对于SOC2.0的认识和理解,不是我一个人想出来的,而是我们这个团队多年工作成果的结晶。再次发表于TT安全之前,先要向我的团队成员们致敬!SOC和NOC的关系是一个一开始就存在的问题。赵粮博士跟我交流的时候表示他们最早在电信的时候,SOC就是建在NOC之下的。后来,在国内SOC热潮澎湃的2004~2006年间,业界有很多关于NOC和SOC关系的探讨。一般地,都是将NOC和SOC平行看待。在当时,这是正确的。在现在,就要看情况而定了。我们的实践告诉我们,对于那些有了成熟的NOC的单位(运营商为主)而言,NOC和SOC的平行关系依然可以延续下去,但是对于其他行业(例如政府),就不一定还要NOC和SOC平行建设了。原因在我的这篇文章中有提及。另外,我们讲SOC和NOC的融合,主要是指技术支撑平台的融合,至于管理职责、组织结构和运作流程的融合还需要一个更长的过程。并且,有些安全管理的职责是在网管之上的,两者是有不同的,还请大家注意,不要混淆。顺便提一下,SOC和NOC的融合、结合、整合(convergence, alignment, integration, etc)等等话题,国外也讨论的很热烈,总的趋势也是朝一体化方向发展。例如这个写于2009年10月24日的博文。
【引言】在传统的安全管理平台SOC1.0眼里,安全管理平台(SOC)与网络管理平台(NOC)是割裂的,但是却违背了网络发展的趋势。未来网络与安全必然密不可分,只有将网络管理与安全管理有机结合,才能满足中国用户的实际需要。
1 网络管理系统的发展分析
网络管理系统作为一类IT管理系统,伴随着网络技术的兴起而迅速发展起来,其发展路线经历了一个从网络设备管理到业务管理的过程。最早的网络管理就是对网络设备的管理。后来,由于客户网络化程序加深,设备网管逐步发展到综合网管阶段,不仅管理网络设备,还管理主机、存储、应用系统等等,管理范围不断扩大。到了最近,网络管理领域出现了将IT监控与业务整合的需求和发展趋势,客户开始关心IT服务对业务带来的影响,强调从业务目标角度出发来优化IT服务,也就是到达了IT与业务融合的阶段。
随着客户的信息化水平不断提升,对网络的依赖日趋加深,而其中的信息问题,尤其是网络安全问题日益突出,严重威胁了客户的整个IT系统。对此,网络管理系统显得力不从心。
现在的应用性能管理(Application PerformanceManagement)系统或者业务服务管理(BusinessServiceManagement)系统虽然可以监控客户的应用和业务,但是却没有考虑到安全保障方面的因素。以BSM为例,该系统的核心的业务的可用性和连续性,保障业务服务的持续性。虽然有的BSM也能够对防火墙、IDS等安全设备进行监控,但是基本是监控这些设备的运行状态,并没有从安全的角度去分析这些设备产生的安全事件。还有的BSM也能够收集来自网络设备、主机甚至安全设备的日志,但仅仅将这些日志存储起来,供用户查询,没有去对这些日志进行深入的关联分析,挖掘日志背后隐藏的安全威胁。当然,BSM也就不可去评估业务系统的安全风险,从而难以指导运维人员进行安全预警与应急响应
2 传统安全管理平台的不足
安全管理平台的发展也经历了一个从分散到集中的过程。传统的安全管理平台比较多的将焦点放到了对客户资产的安全风险,尤其是隐性的安全风险管理之上,借助安全事件的分析和处理过程建立起了一套应急响应流程。但是,传统的安全管理却存在不少管理上的缺失,严重影响了安管平台的应用效果。
那么,传统的安全管理到底存在什么问题呢?主要原因有以下几点:
1) 传统的安全管理信息来源单一,安全分析不全面
传统安全管理的信息来源不充分,基本集中在对日志和事件的处理分析,缺少IT资源的性能、故障、运行状态等信息的输入,难于反映用户业务系统的实际情况。有些应用系统连日志采集都是很困难的,根本无法通过日志分析知晓这些应用的情况。有的安全管理系统声称能够收集用户已有的网管系统发出的告警信息,但实际上,目前国内大量用户(包括企事业单位和政府部门)连网络管理、业务管理等基本的IT资源管理技术手段都缺乏,也就更无法为安全管理提供必要的信息了。
由于和网络管理割裂,安全管理基本处于被动状态,对系统和设备的可用性和健康状态无法做到主动和有效监控,安全管理就成了无根之木。当用户的网络和系统出现故障后,安全管理系统都不可能收到事件,那么分析和展示又有什么意义呢?所以目前很多SOC项目基本停留在审计安全设备的日志层面,不可能有好的效果。
此外,传统的安全风险分析基本集中在事件和弱点的简单关联计算上,无法反应实际安全威胁和风险的全貌,由于弱点本身的滞后性,导致这种分析基本都是事后诸葛亮,无法给用户体现实际效果。
2) 传统的安全管理片面强调解决隐性安全问题,缺乏实效性
传统的安全管理系统实用性存在问题,它没有解决用户面临的更为首先的问题——IT资源可用性管理和业务连续性管理。所有安全风险中最基本、也是最常见的一类风险就是可用性风险。如果业务中断,那么其他安全风险分析也就失去了意义,而传统的安全管理过分强调分析各种隐性的安全问题,例如外部入侵和内部违规,这些行为往往不导致业务和网络负载出现波动。诚然,这类分析很重要,但却是片面的,忽略了对显性的安全风险,也即可用性风险的识别。
由于缺乏对显性化安全问题的处理,使得安全管理系统看起来总是捕风捉影,难以快速建立起用户的信任和正面反馈,从而制约了系统自身的不断完善
3 用户需求催生网管安管一体化IT管理系统
对于客户而言,网络管理也好,安全管理也罢,最首要的是要解决他们面临的实际问题。企业和组织的IT运维人员经常面临这样的问题
接到的保障电话只是反映网络和系统的可用性问题,但实际上可能是由于网络和系统自身导致的,也可能是安全问题引发的;
总是事后响应,甚至是等到公安部门找上门来,难以提前发现安全问题;
发现可疑情况后,缺少分析、响应的手段和流程;
无法了解当前整个IT系统的整体运行状况和安全状态,风险和运维管理全凭感觉;
要缓解和消除上述问题是一个系统性的问题,需要体系化的IT建设思维。其中,很关键的一环就是IT部门必须对其IT设施和服务进行全面的、整体的网络运行监控和安全管理。这其中,既涉及到网络管理,也有安全管理。
但从目前的实际情况来看,网络管理和安全管理建设基本是割裂开来的:网络管理系统主要采用SNMP等协议监控设备和应用的可用性和健康状态,而安全管理则通过分析安全设备,主机和应用的事件信息,采用关联规则进行事件关联,进行审计和风险管理。二者各管一块,看似也正好和一些IT管理部门的职能划分一致。虽然存在就有一定的道理,但是未必就真正合理。长期的客户自身实践,以及大量的网管和安管的实施案例都表明,要想保障业务的持续运营,必须统筹考虑业务的可用性与业务的安全性。越来越多的客户已经开始主动要求进行一体化的IT管理系统建设。 未来的网络发展趋势必然是网络与安全密不可分,很多网络故障都是安全问题引发的,而大部分安全问题都是透过网络传播的。因此,只有将网络管理与安全管理有机结合,才能满足中国用户的实际需要。
4 SOC2.0:网络管理与安全管理的融合
SOC2.0不仅将传统的安全管理从资产安全的层面提升到了更加贴近客户的业务安全层面,并且极大地丰富了安全管理对于客户的实际价值。
下图展示了当前客户IT管理的总体架构。
图:传统的IT管理架构
可以看出,针对相同的客户IT资源,网络管理平台和安全管理平台相互割裂,分别为用户提供服务功能,并各自向上层的运维平台输出管理信息,给客户的IT运维人员使用运维管理平台造成了极大的困难。
最典型地,就是IT资产的一致性问题。对于运维管理而言,一切运维流程都是建立在一套完整的IT资产库的基础之上,而当前的网管平台和安管平台各自有自己的资产库,导致输出到运维平台的信息缺乏一致性,从而使得工单处理、事故管理、配置管理、变更管理无所适从。
又例如,网管和安管各自面向客户的IT资源进行信息采集,造成了数据重复采集的事实,并可能造成对IT资源和业务系统自身运行的影响,或者导致客户网络中的管理流量过大,影响业务数据流。
再例如,网管平台和安管平台产品的告警信息之间的关联性没有得到体现。事实上,很多网络告警事件是由于安全威胁导致的,而传统的IT管理架构下却无法进行相关性分析,造成了运维平台之上的报警事故频繁,降低了运维人员故障处理的效率。
通过对现在的IT管理架构的深入分析,可以发现,网络管理平台和安全管理平台都可以划分为三个层次:采集层、资产层和业务层。在这三个层次上,网络管理平台和安全管理平台都具有一些技术相似性,因而具有融合的可行性。
下图展示了下一代IT管理架构,即SOC2.0的管理架构。
图:下一代IT管理架构 SOC2.0的理念突破了传统方式下网络管理和安全管理割裂的状况,有机地融合网络管理和安全管理的相关技术,并统一到IT运维之下。SOC2.0强调集中地管理用户IT资源环境,统一地采集用户的主机、网络设备、安全设备、数据库、中间件、服务和机房设备的资产信息、运行信息、安全信息,实现面向IT资产的可用性和风险管理,并建立一个面向业务的统一IT管理平面。
SOC2.0在多个技术层次上实现了网管与安管的整合。
1)整合了 IT运行监控信息采集过程和安全事件信息采集过程,避免对被监控保护对象重复采集数据,最大程度地降低了管理系统对IT资源自身运行的影响。
2)整合了运行监控信息分析过程和安全事件分析过程。通过统一的关联分析引擎,系统能够将资产可用性和性能事件与安全事件进行关联,全面的处理各种显性安全问题和隐性安全问题,更加准确的定位安全故障点。
3)整合了运行监控展现与安全事件监控的展现过程。系统采用面向业务的方式,从业务的角度为用户提供了IT资源整体运行状况和安全状况的视图。
SOC2.0将IT运维的运行管理过程与安全管理过程聚焦到用户的业务系统上,而非承载这些业务的繁杂的 IT资源本身,从而更加有效地为用户提供全面的IT监控、安全运行和维护解决方案。
5 统一管理平台的最佳实践
SOC2.0提出的统一管理的概念无疑是对现有IT管理架构的革新【或者说是一种价值的回归】,为客户的IT管理体系建设提供了一幅蓝图。在现实之中,客户行业千差万别、发展阶段各有差异、管理水平各有高低、管理需要也各不相同,如何才能逐步实现这个蓝图?这就需要一个IT管理发展的路线图和一套适合客户自身发展需要的最佳实践。我们认为,至少应该从以下几方面进行考虑。
5.1 职责分离
统一管理系统的建设,既涉及技术层面,也涉及到管理层面。从管理层面来看,一方面,国内很多客户的组织结构决定了网管与安管是两个不同的部门,并可能较长时间内都是如此;另一方面,从职责和目标上而言,网管人员和安管人员一定是存在区别的。因此,对于当前的用户而言,首先是要考虑技术层面的融合。这也意味着SOC2.0统一管理平台需要在技术架构融合的同时支持管理职责的分离。
可以认为,这种分工是基于统一技术支撑平台的分工,是在更高层次上的分工。
5.2 统一运维
在构建完整的IT管理体系的过程中,SOC2.0强调将运维管理单独抽象出来,形成一个统一的运维服务平台,不仅要有IT运行管理触发的流程,还要管理IT安全管理触发的流程。基于这个运维服务平台,参照ITIL的要求,逐步建立起面向整个IT系统运行维护和安全保障的流程。
例如,我们不建议客户在部署单纯的网络管理或者安全管理平台的时候同时部署内置的工单或者应急响应处理流程模块,而应该将与流程相关的需求独立出来,形成一套对整个IT管理流程的需求,并由一个运维管理系统(Operation ManagementSystem)系统担当,然后借助这个系统从流程的角度去整合客户已有的管理系统,逐步实现SOC2.0所描绘的统一管理蓝图。
5.3 可裁剪的管理平台
SOC2.0提到的统一管理是一套完整的管理体系,对于不同的客户、统一客户的不同发展阶段,对IT管理的认识和需求都是不同的。因此,在IT管理的实践过程中,蓝图要完整,实施要分步,要切合客户自身的实际,不要盲目追求一步到位。因此,一款符合SOC2.0要求的管理平台应该是一个开放的、可裁剪的、可持续发展的平台。
6小结
SOC2.0从关注客户的安全问题入手,提出了从业务的角度去审视安全的观点,并进一步设计出了一幅将网络管理与安全管理融合的蓝图。针对这个蓝图,SOC2.0从方法论和最佳实践的角度阐明了未来管理系统发展的路线路。
可以说,网络管理与安全管理的融合是未来发展的必然,这是客户需求决定的,也是技术发展的必然。
|