跳转至
首页 解决方案 下载 文档
演示环境

运维平台建设指南

本文讲述的运维平台建设理念,不仅仅适用于OpsAny,也是大多数运维平台实施和建设的指导手册,供君参考。

第一步:识别运维管理对象(占用10%项目时间)

运维平台的建设的第一步,需要工程师识别出来,你想管理的运维对象都有哪些,通常根据分层进行梳理,例如:

资源梳理

资源是指除了应用系统之外的所有内容,统称之为资源。

  • 云服务:WAF、DDOS、域名、CDN
  • 负载均衡:F5、Nginx、Haproxy
  • Web服务器:Nginx、Tomcat、Apache、Jboss、WebShpere、Weblogic
  • 中间件:RabbitMQ、Kafka、Zookeeper、Redis、Elasticsearch
  • 数据库:MySQL、PostgreSQL、Oracle、Sqlserver、MongoDB、GaussDB、OceanBase
  • 操作系统:CentOS、Ubuntu、Windows、UOS、麒麟、EulerOS
  • 基础设施:物理机、交换机、路由器、防火墙、安全设备

应用梳理

应用是指独立运行的应用系统的统称,例如OA系统、CRM系统、ERP系统称之为一个应用。应用之上是应用分组,通常称之为业务,因人而已。

  • 应用分组:对应业务系统、应用分组、项目
  • 应用:对应应用系统
  • 服务:对应应用独立部署的服务模块。

第二步:梳理运维管理对象(占用50%项目时间)

在识别完毕运维对象之后,就可以按运维对象分组来安排任务,研究每一个运维对象需要怎么进行管理,需要梳理以下内容:

  • 运维流程:梳理当前企业的常用的运维流程,用于ITSM服务目录建设,至少包含:服务流程图、流程节点、流程文档等。
  • 对象模型:梳理某运维对象需要管理哪些属性,用于CMDB的建设,至少包含:属性名称、属性ID、属性数据类型、属性描述、模型关系。
  • 监控指标:梳理某运维对象需要监控哪些指标,用于监控的建设,至少包含:指标名称、指标ID、指标描述、告警阈值。
  • 巡检指标:梳理某运维对象需要巡检哪些指标,用于巡检的建设,至少包含:指标名称、指标ID、指标描述、告警阈值。
  • 对象流程:梳理某运维对象和流程之间的关联关系,用于CMDB和ITSM消费场景的关联。
  • 应用梳理:梳理所有应用系统的相关内容,输出《某应用运维管理手册》,至少包含:应用背景、应用架构、应用部署详情、应用应急处理、应用更新部署、应用备份等。

第三步:使用平台管理运维对象(占用30%项目时间)

在梳理完所有的运维对象之后,这个时候就是开始使用运维平台来进行建设,下面介绍在OpsAny中是如何进行实施:

插件开发

插件开发需要使用Shell、Python脚本为项目实施完成必要的脚本和插件的开发工作。

  • 1.在OpsAny资源平台创建之前梳理的资源模型,保证所有需要管理的资源均完成。
  • 2.在OpsAny管控平台创建资产采集插件,对于可以自动采集的运维对象进行自动化采集。
  • 3.在OpsAny管控平台创建指标采集插件,包含所有操作系统之上运行的组件。
  • 【企业版】4.在OpsAny智能巡检中,创建巡检插件,并根据之前梳理的巡检指标完成巡检脚本的编辑。

部署实施

部署实施需要熟练掌握平台的功能和使用方法,使用平台的功能完成对应工作。

  • 1.系统初始化,例如开启MFA验证,设置登录域、设置邮件通知、企业微信、钉钉通知。
  • 2.运维对象录入:OpsAny的【资源平台】和【云管平台】用于运维对象的录入,云管同步的资源均会自动写入OpsAny的CMDB即资源平台。对于物理基础设施就需要根据前面梳理的运维对象模型,创建资源模型,然后进行手工数据录入或者Excel导入,也可以创建采集任务进行自动化采集。
  • 3.运维对象纳管:OpsAny的【管控平台】用于运维对象的纳管,目前社区版支持主机、数据库、网络设备的纳管操作,不同的运维管理对象有不同的纳管方式,在纳管时可以同时选择监控插件。
  • 4.监控调试:纳管完成之后,需要进行监控调试。
  • 5.工单流程和工单服务目录创建。

第四步:上线测试并培训使用(占用10%项目时间)

  • 资源管理验证: 资源管理验证,通常以主机这个管理对象为案例,测试验证主机资源录入、主机纳管、主机作业执行、主机监控、监控告警、主机巡检、堡垒机主机资源使用等流程。

  • 应用管理验证: 应该管理验证,以某个应用为案例,验证应用的CI(持续集成流水线)、制品仓库、CD(持续部署),完成应用的CI/CD流程。

  • 使用培训: 权限分配,并培训使用。

Document