推进SOM 平台建设 提升一体化运维能力
——野村综研运维管理培训心得
文/徐伟华 系统运行部
2014年下半年,我有幸参加了为期一周的野村综研运维管理培训活动,学习借鉴国际先进的运维管理经验,并对今后的工作也有了一些启迪和思考,具体如下。
一 野村综研运维管理概况
1. 野村综研的运维架构
这次对我们进行培训的是野村综研数据中心事业部。如果将野村综研数据中心事业部和我所技术口的组织架构进行对比,从承担职责的角度来看,野村综研数据中心事业部更像是系统运行部的一线团队。他们承担的职责包括日常的监控和操作,对每个项目跟踪运维方面的需求等等。目前在系统运行部组织架构中的应用管理、基础设施管理,以及网络管理等工作在野村综研体系中归属于开发团队(包括外包开发商)和基盘团队。
2. 野村综研的运维利器 ——千手软件
千手软件体系是野村综研应自身运维需要,历经近20年的开发积累而成的运维软件。千手软件体系完全贴合了野村综研的运维体系和运维模式。借助这套千手软件体系,野村综研的运维活动具备了高度的自动化能力。
千手软件体系涵盖了运维监控、消息事件处理跟踪、业务影响分析、服务请求管理、变更管理等各个方面,主要由SOC (Senju Operation Conductor)、SEN (Senju Enterprise Navigator)和SSM (Senju Service Manager)组成。其中,SOC 组件面向系统运维监控、自动化操作等;SEN 组件面向企业级消息整合、事件跟踪等;SSM 组件面向服务流程管理、服务请求管理等。
千手软件体系有自身鲜明的特点。作业调度高度自动化,过程展示高度图形化。应用系统运行监控和业务监控实现了分离,一线监控人员只监控应用系统运行状态,不对业务运转情况进行监控;出现故障时,运维人员不做业务上的判断,系统根据知识库查找解决方案,自动执行对应脚本解决故障,或者是提示运维人
员匹配的解决方案,由运维人员手工解决;如果系统无法找到对应的解决方案,将升级至后台的开发团队或者基盘团队解决。
3. 野村综研的运维和研发
在野村综研,运维团队和研发团队联系非常紧密。相对一般国内金融机构而言,野村综研的运维部门在项目实施、跟踪和交付各环节都具有更大的话语权。
在项目开展的前期,运维部门就开始介入,预先提出监控、日常操作等相关的运维需求,以保证新业务、新系统能够对接统一的监控和运维接口。在项目开展的后期,运维部门参与测试验收,对于不满足监控和运维需求,不具备运维条件的系统上线要求可以一票否决,相关责任由项目组负责。
当线上系统出现故障需要研发团队介入时,由运行部门提供相应访问途径来实时访问生产环境。运行部门则利用离线环境(相当于目前我所的独立测试系统)进行缺陷验证,然后再部署上线。
4. 野村综研的服务等级管理
野村综研的运维服务等级管理也是一大亮点。被野村综研形容为“生命线”的运维服务等级管理一方面是对客户的服务和承诺,让客户清晰的了解所能得到的服务内容;另一方面也是对自身的保护。既明确了公司承担的职责,明确了公司可能因为未能满足服务等级所需要承担的商业、法律风险,同时也避免提供超出承担能力的服务。
野村综研的服务等级协议按照三种价值(技术价值含量、管理价值含量、商用价值含量)和三种服务类型(商用式服务、专业服务、战略共有合作方服务)形成一个三乘三的服务矩阵。对于不同的服务,又从形式上提供了从顶层到底层、从概要到详细的协议书,包括基本协议书、特定协议书和SLA (Service Level Agreement ,服务等级协议)协议书。这些协议书设立了非常多的指标,这些指标都是可以量化度量的。在服务等级协议签署之后,会定期确认服务情况,同时还有第三方来对服务质量进行监管。
二 启迪和思考
1.SOM 平台建设和野村综研走在同样的道路上
目前我所技术口正在进行SOM 平台建设(Service and Operation
Management ,服务运维平台)。SOM 平台包括监控平台、自动化平台和流程平台,以及覆盖整个技术口的运维管理门户。3个平台之间相互整合,数据共通。通过一整套整合的系统来规范和调度运维活动。应该说,SOM 平台的建设方向和我们看到的野村综研运维体系的发展规划是一致的。
在交流过程中我们发现,双方在运维规划中都遇到了一些相似的技术问题,比如特定型号的存储设备的监控、服务器底层硬件的监控等等。目前,野村综研是通过手工输入和维护基础配置数据,暂时无法做到完整的、自下向上的业务影响分析。为此,他们正在计划建设CMDB (Configuration Management Database ,配置管理数据库),尝试实现全面的业务影响分析。种种这些都验证了我们前面的判断,坚定了我们推进SOM 平台建设的决心。
2.SOM 平台将会提升我们一体化运维的能力
比照野村综研的运维活动,我们的自动化水平还处于比较弱的水平。目前现状是大家有需求,有设想,但缺乏全局平台的支持;只能做到在一两台服务器的局部实现部分功能的自动化,无法完成流程化、全局化的自动化操作。
结合在野村综研收获的经验,我们希望在SOM 项目一期上线后,通过SOM 提供的跨平台、跨系统的自动化平台,各运维小组通力合作,推动横向和纵向的流程自动化;通过流程自动化来打破各运维小组之间的职能藩篱,实现一体化运维。
3.SOM 平台需要学习野村综研自动化经验
在野村综研培训过程中,我们看到的是一个高度标准化、图形化、集成化的运维平台。相比之下,我们目前的运维现状主要还是依赖人工,缺乏判断事件处理方案的知识库自动匹配,缺乏对应用系统数据维护的自动化作业工具。
可以这么认为,一线的操作能力范围大小取决于二线和开发能够提供多少标准化的操作,二线的管理能力范围大小取决于开发能够提供多少系统接口来实现对系统的维护。在推进SOM 平台建设的过程中,项目组需要推动运维活动的标准化,借助图形化和集成化的工作平台帮助提高一、二线工作效率;同时加强运维需求管理,借助开发团队的力量扩展运维活动的边界。
4. 加强运维管理
持续优化目前的运维开发模式也是一项重要工作。
当前,对于中大型项目,尤其是新建项目,我们能够做到提前介入,跟踪运维需求;对于数量众多的小型项目,尤其是功能优化型项目,还无法做到个个介入。
借鉴野村综研的经验,运维团队可以加强和工程团队的配合,完善针对小型项目的运维需求评估;同时结合独测项目建设,增加项目预上线环节,降低项目上线失败回退、引入新缺陷的比率,从而提高服务质量。
5. 加强服务级别管理
对比野村综研的服务级别管理,我们目前的运维备忘还主要关注于故障恢复时间和系统维护窗口的约定,难以量化和评估运维活动质量。
在SOM 项目需求中,SLA 指标的可实时计算和展示是一个很重要的功能点。此外,结合SOM 平台建设和灾备完善项目,我们可以学习野村综研的经验,逐一评估现有主要系统的运维备忘,完善或者补充运维备忘,让SLA 指标可以量化评价,从而真实反映运维水平。
推进SOM 平台建设 提升一体化运维能力
——野村综研运维管理培训心得
文/徐伟华 系统运行部
2014年下半年,我有幸参加了为期一周的野村综研运维管理培训活动,学习借鉴国际先进的运维管理经验,并对今后的工作也有了一些启迪和思考,具体如下。
一 野村综研运维管理概况
1. 野村综研的运维架构
这次对我们进行培训的是野村综研数据中心事业部。如果将野村综研数据中心事业部和我所技术口的组织架构进行对比,从承担职责的角度来看,野村综研数据中心事业部更像是系统运行部的一线团队。他们承担的职责包括日常的监控和操作,对每个项目跟踪运维方面的需求等等。目前在系统运行部组织架构中的应用管理、基础设施管理,以及网络管理等工作在野村综研体系中归属于开发团队(包括外包开发商)和基盘团队。
2. 野村综研的运维利器 ——千手软件
千手软件体系是野村综研应自身运维需要,历经近20年的开发积累而成的运维软件。千手软件体系完全贴合了野村综研的运维体系和运维模式。借助这套千手软件体系,野村综研的运维活动具备了高度的自动化能力。
千手软件体系涵盖了运维监控、消息事件处理跟踪、业务影响分析、服务请求管理、变更管理等各个方面,主要由SOC (Senju Operation Conductor)、SEN (Senju Enterprise Navigator)和SSM (Senju Service Manager)组成。其中,SOC 组件面向系统运维监控、自动化操作等;SEN 组件面向企业级消息整合、事件跟踪等;SSM 组件面向服务流程管理、服务请求管理等。
千手软件体系有自身鲜明的特点。作业调度高度自动化,过程展示高度图形化。应用系统运行监控和业务监控实现了分离,一线监控人员只监控应用系统运行状态,不对业务运转情况进行监控;出现故障时,运维人员不做业务上的判断,系统根据知识库查找解决方案,自动执行对应脚本解决故障,或者是提示运维人
员匹配的解决方案,由运维人员手工解决;如果系统无法找到对应的解决方案,将升级至后台的开发团队或者基盘团队解决。
3. 野村综研的运维和研发
在野村综研,运维团队和研发团队联系非常紧密。相对一般国内金融机构而言,野村综研的运维部门在项目实施、跟踪和交付各环节都具有更大的话语权。
在项目开展的前期,运维部门就开始介入,预先提出监控、日常操作等相关的运维需求,以保证新业务、新系统能够对接统一的监控和运维接口。在项目开展的后期,运维部门参与测试验收,对于不满足监控和运维需求,不具备运维条件的系统上线要求可以一票否决,相关责任由项目组负责。
当线上系统出现故障需要研发团队介入时,由运行部门提供相应访问途径来实时访问生产环境。运行部门则利用离线环境(相当于目前我所的独立测试系统)进行缺陷验证,然后再部署上线。
4. 野村综研的服务等级管理
野村综研的运维服务等级管理也是一大亮点。被野村综研形容为“生命线”的运维服务等级管理一方面是对客户的服务和承诺,让客户清晰的了解所能得到的服务内容;另一方面也是对自身的保护。既明确了公司承担的职责,明确了公司可能因为未能满足服务等级所需要承担的商业、法律风险,同时也避免提供超出承担能力的服务。
野村综研的服务等级协议按照三种价值(技术价值含量、管理价值含量、商用价值含量)和三种服务类型(商用式服务、专业服务、战略共有合作方服务)形成一个三乘三的服务矩阵。对于不同的服务,又从形式上提供了从顶层到底层、从概要到详细的协议书,包括基本协议书、特定协议书和SLA (Service Level Agreement ,服务等级协议)协议书。这些协议书设立了非常多的指标,这些指标都是可以量化度量的。在服务等级协议签署之后,会定期确认服务情况,同时还有第三方来对服务质量进行监管。
二 启迪和思考
1.SOM 平台建设和野村综研走在同样的道路上
目前我所技术口正在进行SOM 平台建设(Service and Operation
Management ,服务运维平台)。SOM 平台包括监控平台、自动化平台和流程平台,以及覆盖整个技术口的运维管理门户。3个平台之间相互整合,数据共通。通过一整套整合的系统来规范和调度运维活动。应该说,SOM 平台的建设方向和我们看到的野村综研运维体系的发展规划是一致的。
在交流过程中我们发现,双方在运维规划中都遇到了一些相似的技术问题,比如特定型号的存储设备的监控、服务器底层硬件的监控等等。目前,野村综研是通过手工输入和维护基础配置数据,暂时无法做到完整的、自下向上的业务影响分析。为此,他们正在计划建设CMDB (Configuration Management Database ,配置管理数据库),尝试实现全面的业务影响分析。种种这些都验证了我们前面的判断,坚定了我们推进SOM 平台建设的决心。
2.SOM 平台将会提升我们一体化运维的能力
比照野村综研的运维活动,我们的自动化水平还处于比较弱的水平。目前现状是大家有需求,有设想,但缺乏全局平台的支持;只能做到在一两台服务器的局部实现部分功能的自动化,无法完成流程化、全局化的自动化操作。
结合在野村综研收获的经验,我们希望在SOM 项目一期上线后,通过SOM 提供的跨平台、跨系统的自动化平台,各运维小组通力合作,推动横向和纵向的流程自动化;通过流程自动化来打破各运维小组之间的职能藩篱,实现一体化运维。
3.SOM 平台需要学习野村综研自动化经验
在野村综研培训过程中,我们看到的是一个高度标准化、图形化、集成化的运维平台。相比之下,我们目前的运维现状主要还是依赖人工,缺乏判断事件处理方案的知识库自动匹配,缺乏对应用系统数据维护的自动化作业工具。
可以这么认为,一线的操作能力范围大小取决于二线和开发能够提供多少标准化的操作,二线的管理能力范围大小取决于开发能够提供多少系统接口来实现对系统的维护。在推进SOM 平台建设的过程中,项目组需要推动运维活动的标准化,借助图形化和集成化的工作平台帮助提高一、二线工作效率;同时加强运维需求管理,借助开发团队的力量扩展运维活动的边界。
4. 加强运维管理
持续优化目前的运维开发模式也是一项重要工作。
当前,对于中大型项目,尤其是新建项目,我们能够做到提前介入,跟踪运维需求;对于数量众多的小型项目,尤其是功能优化型项目,还无法做到个个介入。
借鉴野村综研的经验,运维团队可以加强和工程团队的配合,完善针对小型项目的运维需求评估;同时结合独测项目建设,增加项目预上线环节,降低项目上线失败回退、引入新缺陷的比率,从而提高服务质量。
5. 加强服务级别管理
对比野村综研的服务级别管理,我们目前的运维备忘还主要关注于故障恢复时间和系统维护窗口的约定,难以量化和评估运维活动质量。
在SOM 项目需求中,SLA 指标的可实时计算和展示是一个很重要的功能点。此外,结合SOM 平台建设和灾备完善项目,我们可以学习野村综研的经验,逐一评估现有主要系统的运维备忘,完善或者补充运维备忘,让SLA 指标可以量化评价,从而真实反映运维水平。