摘要:
IT运维管理的规划是非常重要的环节,有效的规划能够让运维管理整体协调一致,有足够的弹性以适应未来的变化,应对未知的风险,更好地支持企业战略实现。
近十年以来,信息技术的应用逐渐深入到各行各业,越来越多的业务通过IT系统来实现运营支撑。“十一五”期间,国家制定了“以信息化推动工业化,
以工业化带动信息化”的两化融合战略,进一步推动了信息技术的广泛应用。其中信息技术在民航业的应用可以说仅次于金融业和电信业,订座、离港、货运、结算等多个系统共同支撑着民航业务的开展。随着业务系统越来越复杂,如何保障系统的安全平稳运转,如何有效地分配资源,如何快速地响应客户,如何平滑地演进和迁移等问题,成为IT运维管理团队面临的艰巨考验,也成为企业两化融合战略执行的关键。业务行于IT,IT行于运维,无论多么先进的IT系统,也只有通过高效可靠的运维才能发挥作用。
笔者多年从事民航结算系统的运维管理,对IT系统如何更好地支持企业发展问题进行了思考。笔者认为,IT运维管理的规划是非常重要的环节,有效的规划能够让运维管理整体协调一致,有足够的弹性以适应未来的变化,应对未知的风险,更好地支持企业战略实现。
一、运维管理规划要以业务为导向
从以网管为核心的NSM,到以服务为核心的ITSM,到以业务为核心的BSM,IT运维管理已经走到了新的阶段。在这个过程中,IT运维管理越来越贴近市场前端,越来越贴近业务需求。推动这种变革的主要因素是市场竞争的需要,也是I丁运维管理发展的必然方向。以民航业来说,民航业务的IT支撑系统包括订座系统、代理人系统、离港系统、货运系统、收入结算系统、空管信息管理系统等九大信息系统。随着航空公司之间竞争的加剧,各大航空公司都在不遗余力地追求服务质量的提升、成本的降低、响应速度的提高,从而对IT运维提出了一系列更高的要求,例如新业务的快速部署,系统容量的平滑扩容,随需应变的资源分配等等。在这一背景下,以技术或服务为核心的运维管理模式已经无法适应市场的快速变化,IT运维必须以业务为导向,靠近市场前端,从技术的视角转换为市场的视角,以业务战略为依据来考虑运维管理的规划。
传统上,IT的管理往往仅停留在技术层面,单纯地追求IT组件的稳定运行和性能质量,以类似“系统稳定运行时间99.9%”之类的指标来考察IT运营管理的效果,这样就陷入了“重技术质量,轻业务指标”的误区,而实际上,技术只是手段,业务发展才是企业的目标。笔者所在企业已经实施了ITSM近三年时间,目前正在开始关注IT服务对业务带来的影响,强调从业务目标角度出发来优化IT服务,也就是发展到IT与业务融合的阶段,即业务服务管理(BSM)阶段。以业务为导向进行运维管理的规划,必须与业务部门紧密配合,以下几点是笔者在实践中认为比较有效的方法:
1.以业务为核心的量化管理
业务部门的需求经常是无规律可循,时常随着市场的变化而改变。当有新的市场需求时,业务部门需要IT部门快速响应,给出该业务所需的IT成本。如果能够将业务部门的需求进行量化管理,以科学的方法确定IT成本计算方法及业务分摊原则,建立一套I丁成本分摊系统,推进IT成本的精细化管理,可以方便快捷地解决这个问题。与此同时,也可以让业务部门对业务的IT资源有充分的认知和理解,当业务发生变化时可以快速地调整IT成本和IT资源需求。有了业务的良好控制,可以有效提升IT运维的可管理性和IT与业务的易关联性。
2.以业务为核心进行SLA规划
企业中可能同时并存很多套系统,每个系统的关键程度和业务等级都可能不一致。IT运维部门要与业务部门一起定义每套业务系统所需要的IT服务要求以及相应的SLA。IT运维部门必须充分了解它所能提供的各种服务,尤其是服务的优先权和业务重要程度。业务的服务水平要求是配置IT系统的主要依据,是衡量IT架构是否满足业务发展的关键点,IT运维部门必须和业务部门一起梳理出各业务的SLA要求,将IT服务变成可测量的指标,根据业务SLA建立各系统资源配置的原则和配置表,进行有效的服务级别管理(SLM)。
3.以业务为核心进行运维质量评估
对IT运维数据进行分析,建立IT运维服务的展示平台,特别是将IT运维工作成果进行总结,以业务部门能够看懂的方式进行展示,例如以图形的方式展示出业务的运维数据。定期或者不定期地将IT运维管理对于企业业务部门的整体服务情况进行总结,形成运维质量评估报告,这有利于改善客户关系和提高客户满意度。
二、运维管理规划要以架构为重点
IT运维管理的规划,属于IT规划的一部分,而IT规划是为了实现企业的IT战略,IT战略则服务于企业的业务战略。从企业的高度来看,IT运维管理只是IT支撑的一环,因此,考虑运维管理的规划,必须将其纳入整体架构之中,要充分注意到,运维管理不是孤立的,而是要服务于企业的整体战略。另外,单纯考虑运维管理,也应该有清晰的架构,各部分接口定义清晰,互相配合,以一致的方式管理。如图所示,IT架构秉承企业战略,是实现企业战略与IT愿景目标的支撑框架,各个系统的实现应符合架构要求。
以运维管理而言,架构规划要考虑多个系统并存的情况下,诸如资源如何分配、如何监控告警、如何搜集运行数据、如何容灾备份等等每个系统都需要考虑的问题,统一规划。如果缺少架构规划,很可能会出现每个系统各自为政,各自成为孤岛的情况。比如说,系统1采用SNMP告警,系统2采用了EMAIL告警,系统3采用了SYSLOG,如果没有一致的管理架构,必然给运维管理带来困难。根据实践经验,笔者认为以下几点是需要重点考虑的内容:
1.自动化运维能力
随着IT技术的迅速发展,IT硬件成本不断降低,IT硬件建设规模不断扩大,然而IT维护成本和风险正以惊人的速度上升。据调查,服务器的平均运维成本已经高达服务器平均硬件成本的15O名以上。为了减少维护成本,需要提升IT运维的自动化,建立一套整合的IT自动化平台,为跨部门、跨业务、跨平台的各类日常运维任务提供标准化和自动化的操作平台。可以包括:配置发现、配置备份、巡检、应用发布/变更、脚本集中、脚本执行、虚机安装、虚机管理、补丁安装、OS安装、合规审计、权限控制等等。这是实现企业数据中心规范、安全、高效运维的必备管理工具。IT运维的自动化是在IT环境高速膨胀,运维作业压力持续增长环境下落实运维标准、促进运维效率、提升运维水平的必然选择,可以给企业带来很大的收益。
2.跟踪与统计分析能力
IT运维中会产生很多运维数据,例如业务部门的资源需求数据、IT系统的故障处理数据、自动化监控系统产生的系统告警数据、工程师处理问题积累的知识库以及服务商服务报告等数据,如果能够充分利用这些数据,建立IT运维数据的跟踪和分析,可以有效地预测未来一段时间内IT运维的发展趋势,例如未来一段时间内业务部门可能提出的资源需求、系统发生故障的概率等等,可以提前做好这方面的准备,做到未雨绸缪,防患于未然,变IT服务支持管理为主动式管理。
3.业务连续性保证
随着IT技术的发展,目前企业业务对IT系统的依赖性越来越强,IT的中断经常意味着业务的中断和企业的损失,因此在IT运维中要充分考虑业务的连续性。在考虑如何保持连续性时需要从技术和管理流程两个方面考虑,技术上要结合不同业务所能容忍的中断时间(RTO)、能够允许的最大丢失数据量(RPO)选择适合的技术方式。管理流程常常是多数企业IT运维中容易忽略的环节,其实在IT灾难恢复时管理流程的流畅可以为IT技术的恢复赢得不少时间。此外,业务连续性必须要进行定期和不定期的演练,经过演练的业务连续计划方能在需要的时候发挥它应有的作用。
三、运维管理规划要以技术规划为依托
IT运维管理的规划要以技术为依托,适应企业技术现状,充分考虑现有IT系统和运维管理的现状,同时要符合技术发展的趋势,充分考虑演进的需要。技术规划也要充分调研未来业务的发展需求,确保新的规划可以兼顾IT现状并且能够满足未来一段时间内的发展需要,所采用的技术要符合当前技术的主流,尽可能采用开放的架构设计,避免封闭的架构。笔者认为,在技术规划上要关注以下三点:
1.技术规划要结合企业IT现状
多数企业的IT环境都是多年累积建设的结果,不可能推倒重来,因此在进行运维管理规划时要充分了解企业IT环境现状,了解目前存在的问题,这是保护既有投资的需要,同时多年的技术积累和技术成果也可以为新的技术规划提供适合企业自身发展的建议,其他企业的成功经验纵然可以用来借鉴,但是由于每个企业的现状不同,别人的经验不能直接拿来直接使用,必须要结合自身情况制定合适的规划。
2.要符合技术发展的趋势
进行技术规划时必须要选择符合发展趋势的技术,符合技术趋势才有生命力,选用先进的、具有国内行业领先水平的、符合业内IT技术发展趋势的产品和技术,确保系统的先进性,坚持高起点,比如云计算,虚拟化等技术。不符合技术发展趋势的规划后续很容易就被淘汰,反而会导致后期成本增加,同时效率也很低。
3.技术规划要充分考虑业务需求
技术规划要充分考虑企业的业务发展需要,笔者在前面也提到以业务导向为核心的IT运维管理,真正能够随着业务的发展做到随需应变是IT运维管理的目标。IT运维部门做技术规划时要及时向业务部门了解业务近期和远期发展目标,同时结合过去运维管理数据进行合理分析,将企业业务发展目标转变为对IT运维管理的需求,做一些前瞻性考虑,即技术规划时要考虑技术架构的伸缩性或者灵活性,以期能够适应企业本身业务的变化。
四、运维管理规划要以规范为准
则以业务运行和服务客户为中心,制订规范化的管理制度、标准化的管理流程、符合行业要求的审计规范是IT运维管理的重要保障。建立完善而成熟的IT运维管理体制,通过流程管理,不断提高IT运维质量,实现高效运维,提升组织内IT服务满意度。笔者所在企业承接了国内十几家航空公司的系统运行支持服务,以及新加坡、澳门航空公司的外包服务:从2010年开始,全面接管全球47个国家和地区BSP业务的数据处理服务。
经过多年的运维管理,笔者认为在规范方面要关注以下几点:
1.运维管理制度化
现代企业需要建立完善而成熟的IT运维管理体制,通过建立管理制度,不断提高IT运维质量,实现高效运维,提升组织内IT服务满意度。运维管理是一个团队的协同合作,任何一个环节的纰漏都有可能造成严重的安全隐患,任何一个单点故障都可能是木桶中那个短板。因此,在日常的管理中,必须制度化一些规则,作为日常工作的依据。
2.常规操作流程化
根据多年运维工作的最佳实践,笔者所在的运维团队对于日常通用的一些操作流程制定了操作规范,例如(UNIX系统环境配置规范》、(Windows系统环境配置规范》、《数据库安全配置模板》、《系统故障处理指导手册》等多项系统安装、系统安全、系统维护规范,有了这些规范,IT运维管理不再是依赖于某一个专家的事情,离了专家就不能正常运转,而是变成了一个团队和一套操作流程的完美结合,运维管理中70%的工作要求执行人只要遵循规章制度和操作流程就可以做好。
3.信息系统的合规化
信息系统的合规性建设是IT运维中持之以恒的一项工作内容,尤其是对于上市公司的IT运维业务,在每年都要进行一次或者多次的IT信息系统的合规性审计。笔者所在的IT运维每年都经历很多次的合规性审计,例如SAS70审计、塞班斯法案审计、27001认证审计、PCI合规性审核等等。IT系统的合规化主要遵循以下几如建立内部审核小组,依据内部审计制度定期执行内审:二是对于接受多种合规性审计要求的系统,综合几个法规的要求,制定一个最为严格的审计规范,例如在笔者所在公司制定27001规范时就汇总了其他几个审计规范要求的所有安全点:三是定期查看各个系统发布的安全补丁,及时修补安全漏洞。对于每次内审和外审遇到的薄弱点要及时加强,保障系统的安全性和健壮性。
|