发布时间:2018-09-11

[案例推荐] 勤智运维帮江苏疾控轻松实现“喝杯咖啡管理IT”


按照国家卫计委信息化“4632-1工程”和疾控信息化“十三五”规划,要建立完善、统一的公共卫生信息网络和四级公共卫生疾控数据中心,各省市在此背景下提出加强疾控信息化的IT运维管理具有重要的意义。

“三分技术,七分管理”是信息化建设和应用的实践总结,许多疾控信息化缺乏整体IT运维管理设计,技术人员处于应急救火状态,管理人员的管理成本不断攀升,决策者缺乏可信赖依据。利用先进的管理理念,建构相应的IT运维管理体系,逐步实现对数据中心“可视、可控、可分析、可溯源”的管理目标,是当前疾控信息化面临的主要挑战。

项目背景

       响应国家卫计委信息化和疾控信息化建设要求,江苏省疾控中心建成了数据中心机房,以保障江苏省内所有疾控中心网络及业务的稳定运行。随着疾控站点逐渐增加,省疾控中心数据中心负荷日益加重,省内各地市所有疾控中心服务器上运行的各种疾控重要数据,以及省内各医院的重要疾病管理档案均会上传至数据中心服务器。因此,疾控站上传到数据中心服务器的资料与网络设备可用性的维护成了困扰疾控中心网络中心的IT管理人员的严重问题。疾控中心网络中心希望通过先进的技术手段和管理理念实现对江苏省内所有疾控站点进行实时监控和全面管理,保障疾控中心服务的正常运行以及数据中心网络的不间运行。

 

项目挑战/需求


缺乏整体IT运维管理设计,技术人员处于应急救火状态

1、故障难以定位,响应速度慢

省疾控中心数据机房服务器多,数据量大。一旦系统故障,技术人员无法在短时间内准确定位故障点,导致业务长时间宕机,严重影响数据准确性。

2、对业务系统缺乏有效监控

数据中心运维人员每天通过浏览器逐个点击各个业务系统URL地址来查看业务系统状态是否正常,这种“URL轮巡”式检查业务系统是否正常的方式耗时耗力,且无法实现业务系统全局监控,实时动态监控。

3、IT异构资源缺乏全面集中化管理

疾控站点IT资源种类多且规模大,涵盖不同厂家、各种型号的IT设备。针对不同厂家不同型号的设备运行维护,需要通过不同的管理平台。无法通过一个集中的管理平台了解所有资源的监控告警管理及监控性能数据。

4、IT资源性能数据大屏展示

数据中心需要通过大屏展示网络拓扑、业务系统、应用系统、IT资源、实时告警、表单报表等信息,以满足多元化的监控管理需求。

5、符合最佳实践的服务流程管理建立

数据中心缺乏故障管理流程、资产管理流程,需要根据数据中心实际业务情况和运维情况建立规范的ITIL服务支撑流程及资产管理流程,通过流程管理实现故障管理、备件管理等IT运维服务的流程化、规范化。

 

解决方案

结合江苏省疾控中心数据中心运维建设的实际需求,勤智运维坚持以基于ITIL的IT服务管理思想,整合系统监控、应用监控、网络监控、机房监控、虚拟化资源管理、工作流、ITIL式报表和门户等多种技术手段,提出OneCenter一体化智能运维解决方案,在基础架构管理、应用管理、业务服务管理的基础上,通过IT流程管理,实现如下功能:1、 帮助数据中心建立以ITIL流程为框架的一体化智能运维管理系统;

2、实现数据中心全网IT资源的统一监控管理,并对其运维工作流程进行梳理;

3、实现IT运维工作过程可追踪、可查询,达到运维自动化和规范化管理效果。

OneCenter一体化智能运维管理平台包含:数据采集层、数据分析和处理层、数据展示层。平台采用模块化、松耦合设计。

数据采集层:是整个管理平台的基础,负责采集平台运行需要的数据。

数据分析和处理层:包括资源监控、服务流程管理、配置管理、资产管理等多个子系统。

数据展示层:采用B/S架构,是整个服务管理平台的统一门户,用户可以按不通角色权限通过浏览器轻松访问监控运维系统,查看各个系统、功能模块以及统计数据,同时提供大屏展示的汇总数据和页面。

                                              blob.png

 

项目效果

江苏省疾控中心数据中心运维管理系统的建设得到了信息中心负责人的高度认可,通过OneCenter一体化智能运维管理平台,实现了:

1、 可以统一管理数据中心的各种IT资源,再也不要来回切换系统进行管理动作了,

blob.png

(存储监控详细界面,可以一体化管理所有资源,实现一站式管理)

 

2、 让运维管理人员每天第一时间知道服务器的情况,第一时间知道预警,并且定位到故障的节点,各地疾控站的数据采集是否正常;

blob.png

(自定义的全网拓扑首页,以及告警一览,可以第一时间发现有问题的设备)

 

blob.png

(现场图:根据平面图绘制的网络拓扑图,可以直观的查看楼层交换机所在位置,以及故障定位, 办公室的运维电视,产生告警可以发出声音,以及实施了解机房设备信息)

3、 通过勤智运维提供符合国家ITSS信息技术服务标准的IT运维管理咨询,重新梳理了疾控中心的IT运维流程,并且将这些流程固化到系统中,实现管理可追踪、可查询,进而提高了我们的服务满意度,也让IT的稳定性得到保障。

blob.png

现场图:资源页面总览,可以直观查看所有设备的CUP,内存实时情况)

 

blob.png

(现场图:机房门口的投影电视,不用进机房就可以查看所有设备的运维情况)

blob.png

(现场图:LED屏以及机房运维显示屏,可以直观的同步告警)