IT系统运维概览
|
为什么做IT系统运维,运维的目标是什么
IT系统运维都包括什么:
面向用户的服务
面向数据的服务
面向系统的服务
IT系统运维涉及到哪些角色,各自职责是什么
IT系统运维的整体工作流程
IT系统运维典型的问题和处理策略 |
建立运维工作流程 |
建立3级处理机制:
建立服务目录
建立资源目录
建立应用目录
|
系统运维内容概览 |
IT系统运维都包括什么:
系统架构升级
系统 内容维护
系统配置
日志管理
应用数据管理
权限管理
异常处理
|
管理IT系统的关键内容 |
IT系统的网络拓扑架构建模
基本元素和连接关系
文档管理系统
网络设备
服务器硬件
服务器操作系统
应用服务
应用数据
|
运维文档和变更管理 |
有哪些运维文档,读者是谁
维护文档的分类
文档的版本划分
变更版本的时机和管理方式
文档的多人同步
使用SVN版本控制系统管理文档
|
网络设备管理 |
IDC机房管理:机房联系人、机房出入证、机房进出手续
路由器监控与安全
交换机监控与安全
网线
|
服务器硬件管理 |
管理哪些硬件:CPU、风扇、网卡、内存、硬盘、BIOS、远程控制卡
这些硬件设备的定期维护内容
这些硬件设备的典型故障和处理方法
硬件设备的升级策略
系统交接的硬件处理 |
操作系统管理 |
操作系统安装:选择高安全、高可靠、高性能、高可扩展且有长期支持的操作系统。
操作系统监控:关注系统性能指标,留有长期监控记录。
操作系统优化:系统性能监控,关注系统和业务瓶颈并及时调整。
操作系统安全:若无必要少开服务,系统日志要常查并关注远程入侵漏洞报告。严格控制系统用户在生产系统上的在线操作。
操作系统升级:若无安全或者性能必要尽量不升级。
|
应用服务管理 |
Web应用服务器管理:
业务系统管理
数据库系统管理:
|
应用数据管理 |
数据分类:
数据备份和恢复
数据分析
|
典型运维场景的工作指南 |
新系统发布
系统升级
系统故障的处理
系统数据备份
系统崩溃后的恢复
|
系统发布的运维管理 |
编写发布手册
准备相关设备
搭建并确认网络环境
安装应用程序
发布前的测试
发布时的地址转接
发布后的检测
|
运维场景:系统升级 |
确定升级影响范围
确定升级次序
升级环境准备
升级后的测试与验证
|
运维场景:系统故障处理 |
诊断故障特征,分类故障
为故障选择合理的处理策略
尽快恢复系统运行,隔离故障
处理故障,
积累故障经验列表
|
运维场景:数据备份 |
规划数据备份目录
制定数据备份计划
转储数据,记录数据备份日志
清理源数据
根据备份经验建立自动化数据备份机制
|
运维场景:系统崩溃后的恢复 |
建立系统恢复次序目录
按照次序恢复
基于热备快速恢复
恢复后的问题处理
|