如何撰写系统运维架构方案
的有关信息介绍如下:1.1 项目运维管理方案
1.1.1 基础设施层运维
监控机房实时环境,监测网络设备、存储、安全设备、主流操作系统的服务器或集群的运行状态和性能数据,包括设备的基本信息、负载、内存利用率、文件系统、磁盘空间和吞吐、事件与错误日志等信息的分析与监视。帮助用户及早发现基础设备的性能瓶颈与故障隐患,同时需要对社区前端硬件运行状态进行检测维护。
(1)机房环境监控集成
提供汇聚接口与机房动环监控系统对接,统一接收机房环境的实时监控数据。动环监控系统含高压配电屏、变压器、低压配电屏、UPS主机、蓄电池、UPS配电柜、模块化机房、机房温湿度、高低压配电间空调、冷水机组、CDU室漏水监控、柴油发电机、油机储油箱等设备监控。
(2)网络及安全设备
1)提供Web界面的拓扑展示;
2)各个拓扑视图中实时显示网络元素和链路的状态。用不同颜色标识不同状态;
3)可手工绘制拓扑元素之间的逻辑和物理链路,并可建立链路与监测指标关联,以不同颜色实时链路的健康性;
4)鼠标点击拓扑中的网元图标可以显示相关的实时性能数据和告警;
5)支持现在主流网络及安全设备(如:CISCO、华为、ZTE、NetScreen、Juniper、天融信、深信服等)的监控,监控项目应包含但不限于流量、时延、设备健康,并可以根据预设进行自动报警。
6)可以实现对安全管理平台的信息进行对接、采集和展示。
(3)主机
应支持但不限于Solaris、HP UX、AIX、RHAS、CentOS、Windows操作系统,支持但不限于IBM、HP、SUN、DELL等主机。支持监控操作系统运行状况(CPU、内存、硬盘、事件、系统进程、日志文件、网络状态等)。
(4)存储
支持的存储设备包括但不限于EMC、VNX、DMX、VMAX系列、HDS、NetApp存储、IBM DS8000系列、V7000系列存储。对于存储设备需要采用Agent方式监控。监控包括:电池、光纤通道、电源、风扇、端口、硬盘、CM控制器等状态。
系统应该提供对备份设备的监测,监测的内容应该包括备份软件与备份硬件、磁带机的监测,应该包括:电池状态、电源状态、风扇状态、磁带机状态、磁带手状态、备份状态、NAS CIFS status、Node status、NAS overall replication status、磁盘利用率、Healthcheck status。备份软件监测应包含但不限于IBM TSM、ArcServe、Networker、NetBackup等。
(5)服务器
支持的服务器硬件状态监测,支持的品牌包括但不限于IBM、HP、DELL、Lenovo。监测的内容包括:电源、风扇、CPU、RAID、内存等物理状态。
(6)前端硬件设备
支持对系统内视频设备进行轮训,诊断视频质量并输出相关报告。主要包括:
对视频信息质量进行检测分析判断,针对视频图像清晰度、颜色、噪声、对比度、亮度等进行量化分析,对出现的视频模糊、偏色、低对比度、低亮度、高亮度、高噪声等异常现象进行检测分析,并通过对视频内容的智能分析,对出现的视频丢失、视频抖动、视频被移动遮挡、条纹干扰等异常现象进行检测分析。
支持排障报修、运维考核、设备资产管理、设备信息归档等,依据系统采集到的信息,提供业务处理流程,最大程度地利用系统功能、发挥运维系统的应用效益。
1.1.2 数据服务层运维
对数据服务层服务器、数据库、数据源、数据对象、ETL服务引擎、ETL作业的运行状态进行自动的、持续的监控,代替人工巡检。系统发现异常信息时及时生成告警记录,并根据配置的方案通过图形化界面、短信、邮件通知相应资源管理责任人。
数据库监控应支持但不限于MSSQL、MYSQL、Oracle、DB2等主流数据库,监控项目应包含但不限于健康性,并可以根据预设进行自动报警。
根据监控策略实现对平台服务层数据库的监控,按照属性相关性分为数据库工作状态、数据库表空间的利用情况、数据文件和数据设备的读写命中率、数据碎片的情况、数据库的进程状态、数据库内存利用状态等属性监测组,分组监测数据库系统的性能、事务、连接等性能数据。
1.1.3 平台服务层运维
在提供相应数据获取和服务测试接口的情况下实现对服务总线、服务接口等相关资源的运行状态监控、性能监控、负载监控以及异常自动告警;从服务接口的在线率、访问量、访问成功率、响应速度等方面对服务质量进行评价和排名;基于监控日志,从地区、应用、时间、频度等多个方向,对应用服务资源运行情况进行统计分析。
实现操作系统、数据库以及应用服务中间件运作状态的监控。提供包括配置信息、连接池、线程队列、负载监测、通道情况监测等多类监测组,分析与监测中间件的各项运行状态参数。数据库监控应支持但不限于MYSQL、Oracle、SQLsever等主流数据库;应用中间件监控应支持但不限于Apusic(金蝶中间件)、Tuxedo、Websphere、Jboss、IBM GMD、IBM CICS、IBM HACMP、Vmware、Apache、IIS、WebLogic、Tomcat等应用中间件;操作系统监控应支持但不限于Windows、Linux。监控项目应包含但不限于健康性,并可以根据预设进行自动报警。
1.1.4 应用服务层运维
实现应用系统运维功能。提供对应用服务层的基础信息、连接测试、基本负载等重要信息的监测,能够有效实时地分析HTTP/HTTPS 、DNS、FTP、DHCP、LDAP等常见通用服务的运行状态和参数,深入分析服务响应速度变化的技术原因和规律,从根本上解决服务响应性能的问题,并应能主动检查某业务相关环节的健康性,并生成相关业务视图,以便于监控。
1.1.5 驻场服务
驻场服务分为日常服务和事件性服务两类。
(1)日常服务
驻场服务人员根据工作计划主动开展的日常维护服务工作。包括:日常运维、数据的常规整理、定期巡检。
(2)事件性服务
驻场服务人员在服务过程中由用户发起开展的针对性维护服务工作。包括:用户使用答疑、系统优化配置、功能异常处理、接口开发支持、系统接入支持、数据异常处理以及其它需求响应。