推进 SOM 平台建设 提升一体化运维能力

推进SOM 平台建设 提升一体化运维能力

——野村综研运维管理培训心得

文/徐伟华 系统运行部

2014年下半年,我有幸参加了为期一周的野村综研运维管理培训活动,学习借鉴国际先进的运维管理经验,并对今后的工作也有了一些启迪和思考,具体如下。

一 野村综研运维管理概况

1. 野村综研的运维架构

这次对我们进行培训的是野村综研数据中心事业部。如果将野村综研数据中心事业部和我所技术口的组织架构进行对比,从承担职责的角度来看,野村综研数据中心事业部更像是系统运行部的一线团队。他们承担的职责包括日常的监控和操作,对每个项目跟踪运维方面的需求等等。目前在系统运行部组织架构中的应用管理、基础设施管理,以及网络管理等工作在野村综研体系中归属于开发团队(包括外包开发商)和基盘团队。

2. 野村综研的运维利器 ——千手软件

千手软件体系是野村综研应自身运维需要,历经近20年的开发积累而成的运维软件。千手软件体系完全贴合了野村综研的运维体系和运维模式。借助这套千手软件体系,野村综研的运维活动具备了高度的自动化能力。

千手软件体系涵盖了运维监控、消息事件处理跟踪、业务影响分析、服务请求管理、变更管理等各个方面,主要由SOC (Senju Operation Conductor)、SEN (Senju Enterprise Navigator)和SSM (Senju Service Manager)组成。其中,SOC 组件面向系统运维监控、自动化操作等;SEN 组件面向企业级消息整合、事件跟踪等;SSM 组件面向服务流程管理、服务请求管理等。

千手软件体系有自身鲜明的特点。作业调度高度自动化,过程展示高度图形化。应用系统运行监控和业务监控实现了分离,一线监控人员只监控应用系统运行状态,不对业务运转情况进行监控;出现故障时,运维人员不做业务上的判断,系统根据知识库查找解决方案,自动执行对应脚本解决故障,或者是提示运维人

员匹配的解决方案,由运维人员手工解决;如果系统无法找到对应的解决方案,将升级至后台的开发团队或者基盘团队解决。

3. 野村综研的运维和研发

在野村综研,运维团队和研发团队联系非常紧密。相对一般国内金融机构而言,野村综研的运维部门在项目实施、跟踪和交付各环节都具有更大的话语权。

在项目开展的前期,运维部门就开始介入,预先提出监控、日常操作等相关的运维需求,以保证新业务、新系统能够对接统一的监控和运维接口。在项目开展的后期,运维部门参与测试验收,对于不满足监控和运维需求,不具备运维条件的系统上线要求可以一票否决,相关责任由项目组负责。

当线上系统出现故障需要研发团队介入时,由运行部门提供相应访问途径来实时访问生产环境。运行部门则利用离线环境(相当于目前我所的独立测试系统)进行缺陷验证,然后再部署上线。

4. 野村综研的服务等级管理

野村综研的运维服务等级管理也是一大亮点。被野村综研形容为“生命线”的运维服务等级管理一方面是对客户的服务和承诺,让客户清晰的了解所能得到的服务内容;另一方面也是对自身的保护。既明确了公司承担的职责,明确了公司可能因为未能满足服务等级所需要承担的商业、法律风险,同时也避免提供超出承担能力的服务。

野村综研的服务等级协议按照三种价值(技术价值含量、管理价值含量、商用价值含量)和三种服务类型(商用式服务、专业服务、战略共有合作方服务)形成一个三乘三的服务矩阵。对于不同的服务,又从形式上提供了从顶层到底层、从概要到详细的协议书,包括基本协议书、特定协议书和SLA (Service Level Agreement ,服务等级协议)协议书。这些协议书设立了非常多的指标,这些指标都是可以量化度量的。在服务等级协议签署之后,会定期确认服务情况,同时还有第三方来对服务质量进行监管。

二 启迪和思考

1.SOM 平台建设和野村综研走在同样的道路上

目前我所技术口正在进行SOM 平台建设(Service and Operation

Management ,服务运维平台)。SOM 平台包括监控平台、自动化平台和流程平台,以及覆盖整个技术口的运维管理门户。3个平台之间相互整合,数据共通。通过一整套整合的系统来规范和调度运维活动。应该说,SOM 平台的建设方向和我们看到的野村综研运维体系的发展规划是一致的。

在交流过程中我们发现,双方在运维规划中都遇到了一些相似的技术问题,比如特定型号的存储设备的监控、服务器底层硬件的监控等等。目前,野村综研是通过手工输入和维护基础配置数据,暂时无法做到完整的、自下向上的业务影响分析。为此,他们正在计划建设CMDB (Configuration Management Database ,配置管理数据库),尝试实现全面的业务影响分析。种种这些都验证了我们前面的判断,坚定了我们推进SOM 平台建设的决心。

2.SOM 平台将会提升我们一体化运维的能力

比照野村综研的运维活动,我们的自动化水平还处于比较弱的水平。目前现状是大家有需求,有设想,但缺乏全局平台的支持;只能做到在一两台服务器的局部实现部分功能的自动化,无法完成流程化、全局化的自动化操作。

结合在野村综研收获的经验,我们希望在SOM 项目一期上线后,通过SOM 提供的跨平台、跨系统的自动化平台,各运维小组通力合作,推动横向和纵向的流程自动化;通过流程自动化来打破各运维小组之间的职能藩篱,实现一体化运维。

3.SOM 平台需要学习野村综研自动化经验

在野村综研培训过程中,我们看到的是一个高度标准化、图形化、集成化的运维平台。相比之下,我们目前的运维现状主要还是依赖人工,缺乏判断事件处理方案的知识库自动匹配,缺乏对应用系统数据维护的自动化作业工具。

可以这么认为,一线的操作能力范围大小取决于二线和开发能够提供多少标准化的操作,二线的管理能力范围大小取决于开发能够提供多少系统接口来实现对系统的维护。在推进SOM 平台建设的过程中,项目组需要推动运维活动的标准化,借助图形化和集成化的工作平台帮助提高一、二线工作效率;同时加强运维需求管理,借助开发团队的力量扩展运维活动的边界。

4. 加强运维管理

持续优化目前的运维开发模式也是一项重要工作。

当前,对于中大型项目,尤其是新建项目,我们能够做到提前介入,跟踪运维需求;对于数量众多的小型项目,尤其是功能优化型项目,还无法做到个个介入。

借鉴野村综研的经验,运维团队可以加强和工程团队的配合,完善针对小型项目的运维需求评估;同时结合独测项目建设,增加项目预上线环节,降低项目上线失败回退、引入新缺陷的比率,从而提高服务质量。

5. 加强服务级别管理

对比野村综研的服务级别管理,我们目前的运维备忘还主要关注于故障恢复时间和系统维护窗口的约定,难以量化和评估运维活动质量。

在SOM 项目需求中,SLA 指标的可实时计算和展示是一个很重要的功能点。此外,结合SOM 平台建设和灾备完善项目,我们可以学习野村综研的经验,逐一评估现有主要系统的运维备忘,完善或者补充运维备忘,让SLA 指标可以量化评价,从而真实反映运维水平。

推进SOM 平台建设 提升一体化运维能力

——野村综研运维管理培训心得

文/徐伟华 系统运行部

2014年下半年,我有幸参加了为期一周的野村综研运维管理培训活动,学习借鉴国际先进的运维管理经验,并对今后的工作也有了一些启迪和思考,具体如下。

一 野村综研运维管理概况

1. 野村综研的运维架构

这次对我们进行培训的是野村综研数据中心事业部。如果将野村综研数据中心事业部和我所技术口的组织架构进行对比,从承担职责的角度来看,野村综研数据中心事业部更像是系统运行部的一线团队。他们承担的职责包括日常的监控和操作,对每个项目跟踪运维方面的需求等等。目前在系统运行部组织架构中的应用管理、基础设施管理,以及网络管理等工作在野村综研体系中归属于开发团队(包括外包开发商)和基盘团队。

2. 野村综研的运维利器 ——千手软件

千手软件体系是野村综研应自身运维需要,历经近20年的开发积累而成的运维软件。千手软件体系完全贴合了野村综研的运维体系和运维模式。借助这套千手软件体系,野村综研的运维活动具备了高度的自动化能力。

千手软件体系涵盖了运维监控、消息事件处理跟踪、业务影响分析、服务请求管理、变更管理等各个方面,主要由SOC (Senju Operation Conductor)、SEN (Senju Enterprise Navigator)和SSM (Senju Service Manager)组成。其中,SOC 组件面向系统运维监控、自动化操作等;SEN 组件面向企业级消息整合、事件跟踪等;SSM 组件面向服务流程管理、服务请求管理等。

千手软件体系有自身鲜明的特点。作业调度高度自动化,过程展示高度图形化。应用系统运行监控和业务监控实现了分离,一线监控人员只监控应用系统运行状态,不对业务运转情况进行监控;出现故障时,运维人员不做业务上的判断,系统根据知识库查找解决方案,自动执行对应脚本解决故障,或者是提示运维人

员匹配的解决方案,由运维人员手工解决;如果系统无法找到对应的解决方案,将升级至后台的开发团队或者基盘团队解决。

3. 野村综研的运维和研发

在野村综研,运维团队和研发团队联系非常紧密。相对一般国内金融机构而言,野村综研的运维部门在项目实施、跟踪和交付各环节都具有更大的话语权。

在项目开展的前期,运维部门就开始介入,预先提出监控、日常操作等相关的运维需求,以保证新业务、新系统能够对接统一的监控和运维接口。在项目开展的后期,运维部门参与测试验收,对于不满足监控和运维需求,不具备运维条件的系统上线要求可以一票否决,相关责任由项目组负责。

当线上系统出现故障需要研发团队介入时,由运行部门提供相应访问途径来实时访问生产环境。运行部门则利用离线环境(相当于目前我所的独立测试系统)进行缺陷验证,然后再部署上线。

4. 野村综研的服务等级管理

野村综研的运维服务等级管理也是一大亮点。被野村综研形容为“生命线”的运维服务等级管理一方面是对客户的服务和承诺,让客户清晰的了解所能得到的服务内容;另一方面也是对自身的保护。既明确了公司承担的职责,明确了公司可能因为未能满足服务等级所需要承担的商业、法律风险,同时也避免提供超出承担能力的服务。

野村综研的服务等级协议按照三种价值(技术价值含量、管理价值含量、商用价值含量)和三种服务类型(商用式服务、专业服务、战略共有合作方服务)形成一个三乘三的服务矩阵。对于不同的服务,又从形式上提供了从顶层到底层、从概要到详细的协议书,包括基本协议书、特定协议书和SLA (Service Level Agreement ,服务等级协议)协议书。这些协议书设立了非常多的指标,这些指标都是可以量化度量的。在服务等级协议签署之后,会定期确认服务情况,同时还有第三方来对服务质量进行监管。

二 启迪和思考

1.SOM 平台建设和野村综研走在同样的道路上

目前我所技术口正在进行SOM 平台建设(Service and Operation

Management ,服务运维平台)。SOM 平台包括监控平台、自动化平台和流程平台,以及覆盖整个技术口的运维管理门户。3个平台之间相互整合,数据共通。通过一整套整合的系统来规范和调度运维活动。应该说,SOM 平台的建设方向和我们看到的野村综研运维体系的发展规划是一致的。

在交流过程中我们发现,双方在运维规划中都遇到了一些相似的技术问题,比如特定型号的存储设备的监控、服务器底层硬件的监控等等。目前,野村综研是通过手工输入和维护基础配置数据,暂时无法做到完整的、自下向上的业务影响分析。为此,他们正在计划建设CMDB (Configuration Management Database ,配置管理数据库),尝试实现全面的业务影响分析。种种这些都验证了我们前面的判断,坚定了我们推进SOM 平台建设的决心。

2.SOM 平台将会提升我们一体化运维的能力

比照野村综研的运维活动,我们的自动化水平还处于比较弱的水平。目前现状是大家有需求,有设想,但缺乏全局平台的支持;只能做到在一两台服务器的局部实现部分功能的自动化,无法完成流程化、全局化的自动化操作。

结合在野村综研收获的经验,我们希望在SOM 项目一期上线后,通过SOM 提供的跨平台、跨系统的自动化平台,各运维小组通力合作,推动横向和纵向的流程自动化;通过流程自动化来打破各运维小组之间的职能藩篱,实现一体化运维。

3.SOM 平台需要学习野村综研自动化经验

在野村综研培训过程中,我们看到的是一个高度标准化、图形化、集成化的运维平台。相比之下,我们目前的运维现状主要还是依赖人工,缺乏判断事件处理方案的知识库自动匹配,缺乏对应用系统数据维护的自动化作业工具。

可以这么认为,一线的操作能力范围大小取决于二线和开发能够提供多少标准化的操作,二线的管理能力范围大小取决于开发能够提供多少系统接口来实现对系统的维护。在推进SOM 平台建设的过程中,项目组需要推动运维活动的标准化,借助图形化和集成化的工作平台帮助提高一、二线工作效率;同时加强运维需求管理,借助开发团队的力量扩展运维活动的边界。

4. 加强运维管理

持续优化目前的运维开发模式也是一项重要工作。

当前,对于中大型项目,尤其是新建项目,我们能够做到提前介入,跟踪运维需求;对于数量众多的小型项目,尤其是功能优化型项目,还无法做到个个介入。

借鉴野村综研的经验,运维团队可以加强和工程团队的配合,完善针对小型项目的运维需求评估;同时结合独测项目建设,增加项目预上线环节,降低项目上线失败回退、引入新缺陷的比率,从而提高服务质量。

5. 加强服务级别管理

对比野村综研的服务级别管理,我们目前的运维备忘还主要关注于故障恢复时间和系统维护窗口的约定,难以量化和评估运维活动质量。

在SOM 项目需求中,SLA 指标的可实时计算和展示是一个很重要的功能点。此外,结合SOM 平台建设和灾备完善项目,我们可以学习野村综研的经验,逐一评估现有主要系统的运维备忘,完善或者补充运维备忘,让SLA 指标可以量化评价,从而真实反映运维水平。


相关内容

  • 学生会制度改革
  • “som”有限责任公司遵循管理学院党委及团委的宏观调控,以广大青年学生为客户服务群体,以最大需求的满足客户需求为企业理念,以最终实现对客户的覆盖及企业影响力为利润考核目标,以客户满意度为主计算年终绩效。 为了增强市场竞争意识,加快新业务发展,提高工作效益,增强公司校园影响力,公司注重内部规划与建设, ...

  • 上海金茂大厦施工技术
  • 2000年10月 第2卷第10期 中国工程科学Oct12000Vol12No110 专题报告 上海金茂大厦施工技术 叶可明,(上海建工(集团),) [摘要] ,是当今世界上排名第三高 度的大楼.,因此金茂大厦的建造有着相当高的难度,尤其是基础与上部结构的施工,上海建工(集团)总公司从实际出发,大力开 ...

  • 参观公司心得体会
  • 今天我们在老师的带领下参观了我们这次专业实习的第三站-固高科技(深圳)有限公司,通过公司相关人员的介绍,我详细地了解了该公司的整体运营状况.固高科技创立于1999年,以香港科技大学为依托,是目前亚太地区第一家拥有自主知识产权,专业从事高速.高精度运动控制器产品及其相关产品的设计.制造.营销以及技术服 ...

  • 论中药产业链的构建
  • 机化研究, 2006(10) :169-1721 [17] 黄骏雄, 蒋弘将, 阎 暂1应用电子鼻检测香烟质量的研究 [J]1化学通报, 2000(1) :51-531 [18] Yu H C, W an g J 1Discrimination of Longjing green tea grade ...

  • 北部湾城市发展规划
  • 附件 北部湾城市群发展规划 国家发展改革委 住房城乡建设部 目 第一章录规划背景......................................................................3 发展基础.................................. ...

  • [风向标:商贸物流十三五规划发布,7大工程决定物流业未来竞争焦点!]
  • 2月8日,商务部流通业发展司网站正式对外发布了<商贸物流发展"十三五"规划>(以下简称规划). 规划由商务部.发展改革委.国土资源部.交通运输部.国家邮政局共同制定,为进一步推动我国商贸物流业健康发展,降低物流成本,提高流通效率不仅指明了发展方向. 规划指出在十三五期 ...

  • 物流业发展中长期规划(2014-2020年)
  • 物流业发展中长期规划(2014-2020年) 物流业是融合运输.仓储.货代.信息等产业的复合型服务业,是支撑国民经济发展的基础性.战略性产业.加快发展现代物流业,对于促进产业结构调整.转变发展方式.提高国民经济竞争力和建设生态文明具有重要意义.为促进物流业健康发展,根据党的十八大.十八届三中全会精神 ...

  • 浙江省十三五规划全文
  • 关于制定浙江省国民经济和社会发展第十三个五年规划的建议 中国共产党浙江省第十三届委员会第八次全体会议,认真学习贯彻党的十八届五中全会精神,紧密结合浙江实际,研究了"十三五"时期我省发展的一系列重大问题,就制定"十三五"规划提出以下建议. 一.以"八八 ...

  • 国务院推进"互联网+政务服务" 加快新型智慧城市建设
  • 中国证券网讯 记者29日从中国政府网获悉,国务院发布关于加快推进"互联网+政务服务"工作的指导意见,提出了加快新型智慧城市建设.完善网络基础设施等要求. 意见提出,创新应用互联网.物联网.云计算和大数据等技术,加强统筹,注重实效,分级分类推进新型智慧城市建设,打造透明高效的服务型 ...