运维平台建设指南¶
本文讲述的运维平台建设理念,不仅仅适用于OpsAny,也是大多数运维平台实施和建设的指导手册,供君参考。
第一步:识别运维管理对象(占用10%项目时间)¶
运维平台的建设的第一步,需要工程师识别出来,你想管理的运维对象都有哪些,通常根据分层进行梳理,例如:
资源梳理¶
资源是指除了应用系统之外的所有内容,统称之为资源。
- 云服务:WAF、DDOS、域名、CDN
- 负载均衡:F5、Nginx、Haproxy
- Web服务器:Nginx、Tomcat、Apache、Jboss、WebShpere、Weblogic
- 中间件:RabbitMQ、Kafka、Zookeeper、Redis、Elasticsearch
- 数据库:MySQL、PostgreSQL、Oracle、Sqlserver、MongoDB、GaussDB、OceanBase
- 操作系统:CentOS、Ubuntu、Windows、UOS、麒麟、EulerOS
- 基础设施:物理机、交换机、路由器、防火墙、安全设备
应用梳理¶
应用是指独立运行的应用系统的统称,例如OA系统、CRM系统、ERP系统称之为一个应用。应用之上是应用分组,通常称之为业务,因人而已。
- 应用分组:对应业务系统、应用分组、项目
- 应用:对应应用系统
- 服务:对应应用独立部署的服务模块。
第二步:梳理运维管理对象(占用50%项目时间)¶
在识别完毕运维对象之后,就可以按运维对象分组来安排任务,研究每一个运维对象需要怎么进行管理,需要梳理以下内容:
- 运维流程:梳理当前企业的常用的运维流程,用于ITSM服务目录建设,至少包含:服务流程图、流程节点、流程文档等。
- 对象模型:梳理某运维对象需要管理哪些属性,用于CMDB的建设,至少包含:属性名称、属性ID、属性数据类型、属性描述、模型关系。
- 监控指标:梳理某运维对象需要监控哪些指标,用于监控的建设,至少包含:指标名称、指标ID、指标描述、告警阈值。
- 巡检指标:梳理某运维对象需要巡检哪些指标,用于巡检的建设,至少包含:指标名称、指标ID、指标描述、告警阈值。
- 对象流程:梳理某运维对象和流程之间的关联关系,用于CMDB和ITSM消费场景的关联。
- 应用梳理:梳理所有应用系统的相关内容,输出《某应用运维管理手册》,至少包含:应用背景、应用架构、应用部署详情、应用应急处理、应用更新部署、应用备份等。
第三步:使用平台管理运维对象(占用30%项目时间)¶
在梳理完所有的运维对象之后,这个时候就是开始使用运维平台来进行建设,下面介绍在OpsAny中是如何进行实施:
插件开发¶
插件开发需要使用Shell、Python脚本为项目实施完成必要的脚本和插件的开发工作。
- 1.在OpsAny资源平台创建之前梳理的资源模型,保证所有需要管理的资源均完成。
- 2.在OpsAny管控平台创建资产采集插件,对于可以自动采集的运维对象进行自动化采集。
- 3.在OpsAny管控平台创建指标采集插件,包含所有操作系统之上运行的组件。
- 【企业版】4.在OpsAny智能巡检中,创建巡检插件,并根据之前梳理的巡检指标完成巡检脚本的编辑。
部署实施¶
部署实施需要熟练掌握平台的功能和使用方法,使用平台的功能完成对应工作。
- 1.系统初始化,例如开启MFA验证,设置登录域、设置邮件通知、企业微信、钉钉通知。
- 2.运维对象录入:OpsAny的【资源平台】和【云管平台】用于运维对象的录入,云管同步的资源均会自动写入OpsAny的CMDB即资源平台。对于物理基础设施就需要根据前面梳理的运维对象模型,创建资源模型,然后进行手工数据录入或者Excel导入,也可以创建采集任务进行自动化采集。
- 3.运维对象纳管:OpsAny的【管控平台】用于运维对象的纳管,目前社区版支持主机、数据库、网络设备的纳管操作,不同的运维管理对象有不同的纳管方式,在纳管时可以同时选择监控插件。
- 4.监控调试:纳管完成之后,需要进行监控调试。
- 5.工单流程和工单服务目录创建。
第四步:上线测试并培训使用(占用10%项目时间)¶
-
资源管理验证: 资源管理验证,通常以主机这个管理对象为案例,测试验证主机资源录入、主机纳管、主机作业执行、主机监控、监控告警、主机巡检、堡垒机主机资源使用等流程。
-
应用管理验证: 应该管理验证,以某个应用为案例,验证应用的CI(持续集成流水线)、制品仓库、CD(持续部署),完成应用的CI/CD流程。
-
使用培训: 权限分配,并培训使用。