阿里云云监控对接使用完全指南:从入门到AI驱动运维

apphuang2026年06月29日 08:19:273

一、云监控2.0:一站式可观测平台的演进

阿里云云监控CloudMonitor 2.0是融合了日志服务SLS、云监控CMS和应用实时监控服务ARMS三大产品能力后全新升级的一站式可观测平台。它能够将指标、链路、日志、事件汇集于统一视图之中,基于UModel建模与观测图谱,实现从基础设施到应用层的全链路、端到端的统一观测。

与传统的监控工具相比,云监控2.0的最大特点在于"统一"二字。过去,运维团队可能需要分别使用SLS查看日志、使用ARMS追踪链路、使用CMS查看云产品指标,数据分散在不同的控制台,难以形成全局视角。云监控2.0打破了这种数据孤岛,让所有可观测数据在一个平台内完成汇聚、分析和告警。

更为重要的是,云监控2.0借助AI增强的跨域智能洞察能力,能够实时分析和预测系统性能,提前识别异常情况,并提供智能化的故障诊断和优化建议。新增的智能根因定位与Copilot辅助诊断功能,可以自动关联异常指标与日志,大幅提升故障排查效率。

在接入方式上,云监控不仅提供可视化操作控制台,还提供了OpenAPI在线调试、阿里云SDK、阿里云CLI等多种调用方式,满足不同场景下的集成需求。

需要先登录阿里云控制台,点击:阿里云控制台

二、准备工作:开通服务与创建工作空间

2.1 开通云监控2.0服务

使用云监控2.0的第一步是开通服务。用户可以直接登录阿里云官网,在云监控产品页面点击开通即可。开通本身不产生费用,费用根据实际使用的监控数据量、存储量和告警通知数量按量计费。

2.2 理解工作空间(Workspace)

工作空间是云监控2.0中最重要的资源隔离概念。通过使用工作空间,可以创建多个独立的资源环境,每个资源环境都可以拥有自己的对象集(如云服务、基础设施、服务端和前端应用、中间件等),每个组内的资源相互隔离,防止不同组之间的资源冲突,提高资源使用的安全性。

简单来说,工作空间类似于一个"监控项目"或"监控租户"。对于拥有多个业务线或多个环境(开发、测试、生产)的团队来说,为每个环境创建独立的工作空间是最佳实践。

2.3 创建工作空间

创建工作空间的操作非常简便:

  1. 登录云监控2.0控制台
  2. 在工作空间页面,单击"新建工作空间"
  3. 在新建工作空间对话框中设置以下参数:
    • 工作空间名称:自定义名称,长度为3-63个字符,建议使用有业务含义的命名,如"prod-monitoring"或"dev-observability"
    • 所属地域:选择监控对象所在地域,不支持跨地域接入监控对象资源
    • 工作空间描述:选填,可补充说明该工作空间的用途
  4. 单击"保存"完成创建

需要注意的是,一个工作空间只能服务于一个地域。如果您的业务部署在多个地域,需要分别在每个地域创建对应的工作空间。

三、接入中心:全栈监控数据的统一入口

3.1 什么是接入中心

接入中心是云监控2.0构建统一监控体系的基石,通过集中化数据接入和管理,实现从基础设施到业务层的全栈可观测性。作为统一接入入口,接入中心支持多源数据接入,涵盖Java应用监控、链路追踪、中间件、人工智能、阿里云服务等观测接入能力。

云监控2.0将接入的对象统称为"实体"(Entity),例如接入一个容器集群或者一台ECS实例,对应一个实体。接入中心提供了针对云上大多数监控目标的开箱即用的观测能力。

3.2 接入ECS实例

以接入ECS实例为例,演示接入中心的基本操作流程:

  1. 登录云监控2.0控制台,选择目标工作空间
  2. 在左侧导航栏单击"接入中心"
  3. 在接入中心页面,选择"云服务器ECS"
  4. 在弹出的对话框中配置接入方式:
    • 全部实体:匹配和工作空间所属同一地域的所有ECS实例
    • 按资源组:匹配目标资源组下的全部ECS实例
    • 按标签:按标签条件匹配ECS实例
    • 手动选择:自定义选择特定的ECS实例
  5. 在接入配置步骤中,勾选需要采集的数据类型:
    • 阿里云ECS监控:采集云服务ECS指标,安装Node-exporter和Process-exporter采集主机指标
    • 阿里云ECS审计日志:安装LoongCollector采集主机系统审计日志
    • 阿里云ECS事件:ECS系统事件接入
  6. 单击"确定"完成接入
  7. 接入成功后,在"接入管理"中可以检查接入状态是否正常

3.3 非阿里云ECS主机的接入

对于非阿里云ECS主机(如其他云平台的服务器或自建服务器),云监控2.0同样支持接入。接入方案的核心是安装LoongCollector采集器。

前提条件包括:

  • 操作系统为Linux(支持RHEL、CentOS、Debian、Ubuntu等)
  • 系统架构为amd64 (x86_64)
  • 操作人具备root权限
  • 支持systemd服务管理
  • 网络可访问公网(用于下载二进制文件)

安装步骤:

# 下载安装包
wget https://aliyun-observability-release-${region_id}.oss-${region_id}.aliyuncs.com/loongcollector/linux64/latest/loongcollector.sh -O loongcollector.sh

# 公网安装(适用于大多数场景)
chmod +x loongcollector.sh
./loongcollector.sh install ${region_id}-internet -v "3.3.0"

# 查看启动状态
sudo /etc/init.d/loongcollectord status

# 配置用户ID(用于标识主账号权限)
touch /etc/ilogtail/users/{阿里云主账号ID}

3.4 接入容器服务ACK

对于Kubernetes集群,云监控2.0支持通过接入中心直接接入容器服务ACK集群。在接入中心页面选择"容器服务ACK",选择需要接入的集群即可完成配置。接入后可以自动采集容器集群的监控指标、日志和事件。

3.5 接入云数据库及其他云服务

云监控2.0的接入中心同样支持RDS、Redis、SLB、OSS等数十种阿里云产品的监控接入。选择对应的云服务产品,按照指引完成授权和配置即可实现开箱即用的监控。

四、告警管理:从规则配置到通知触达

4.1 告警规则

告警是监控系统的核心功能之一。通过创建告警规则,您可以制定针对特定应用的告警条件。当告警规则被触发时,系统会以指定的通知方式向告警联系人或钉群发送告警信息。

创建告警规则的步骤:

  1. 登录云监控2.0控制台,选择目标工作空间
  2. 在左侧导航栏选择"告警中心" → "告警管理" → "告警规则"
  3. 单击"创建告警规则"
  4. 设置告警参数:
    • 规则名称:自定义告警规则名称
    • 数据源类型:选择ARMS探针或OpenTelemetry
    • 应用:选择设置告警规则的应用实例
    • 指标分组:选择应用指标的分组
    • 检测条件:设置单条件或多条件告警检测逻辑
    • 严重等级:P1 Critical、P2 Error、P3 Warning、P4 Info
    • 告警检测周期:每隔N分钟检查一次
  5. 设置告警通知:选择通知对象和通知方式
  6. 配置通道沉默周期(告警发生后未恢复时,间隔多久重复发送一次通知)
  7. 设置生效时间(告警规则仅在生效期内发送通知)
  8. 单击"确定"完成创建

在告警规则配置中,PromQL语句的使用非常关键。例如,监控进程CPU使用率超过85%触发告警,对应的PromQL条件为 process_cpu_usage > 85

4.2 通知策略

通知策略是告警事件处理流程中的核心配置,负责定义告警或事件订阅的匹配、分组、通知和升级规则。通知策略与告警规则采用多对多的解耦设计:一条通知策略可被多条告警规则引用,一条告警规则也可配置多条通知策略。

通知策略的配置分为四个阶段:

  • 事件订阅:定义事件过滤条件,只有满足条件的可观测事件才会进入后续通知流程
  • 通知配置:包含合并降噪、路由规则和通知模板三个子模块。合并降噪减少重复通知;路由规则将事件分派到不同通知对象和渠道
  • 重复/升级/恢复策略:控制告警的生命周期行为
  • 行动集成:告警触发或恢复时自动执行预设的自动化行动,如调用Webhook、触发函数计算或创建ITSM工单

事件订阅支持三种条件匹配模式:

  • 任意:事件满足任意一个条件即命中(OR逻辑)
  • 所有:事件需要满足所有条件才命中(AND逻辑)
  • 复合:通过自定义表达式灵活组合条件,如(1 AND 2) OR (3 AND 4)

过滤条件支持多种运算符,包括IN、NOT IN、等于、不等于、包含、不包含、正则匹配等。

4.3 通知模板

云监控提供了多种通知信息模板范例,支持电话、短信、邮件、钉钉、企业微信、飞书、Slack和Webhook等渠道。用户可以根据自身需求自定义告警通知模板,模板支持中英文双语配置。

五、API与SDK:程序化集成方案

5.1 OpenAPI概述

云监控提供完整的OpenAPI体系,当前支持2019-01-01版本的API列表。用户可以通过OpenAPI门户进行在线调试、查看请求和返回结果,OpenAPI门户还会自动生成相应的SDK调用示例。

5.2 服务接入点

根据相关资源所在地域,选择对应的服务接入点地址以获得最低延迟。例如,华北3(张家口)的云监控公网接入地址为 metrics.cn-zhangjiakou.aliyuncs.com,VPC接入地址为 metrics-vpc.cn-zhangjiakou.aliyuncs.com

VPC接入地址的优势明显:

  • 高安全性:只能在VPC内部访问
  • 更快的响应速度:避免公网延迟和带宽限制
  • 更低的成本:使用内部网络通信

5.3 Python SDK调用示例

以下以Python SDK为例,演示如何通过OpenAPI调用 DescribeMetricList 接口查询云产品的监控数据。

步骤一:安装SDK

pip install aliyun-python-sdk-cms

步骤二:准备AccessKey

准备好阿里云账号的AccessKey ID和AccessKey Secret,以及目标地域的RegionId。

步骤三:RAM用户授权

强烈建议使用RAM用户进行API调用,而非直接使用主账号。需要为RAM用户授予相应的云监控权限:

  • AliyunCloudMonitorFullAccess:管理云监控的完整权限
  • AliyunCloudMonitorReadOnlyAccess:只读访问云监控的权限
  • AliyunCloudMonitorMetricDataReadOnlyAccess:只读访问时序指标数据的权限

步骤四:调用代码示例

from aliyunsdkcore.client import AcsClient
from aliyunsdkcms.request.v20190101.DescribeMetricListRequest import DescribeMetricListRequest

# 初始化客户端
client = AcsClient(
    'your-access-key-id',
    'your-access-key-secret',
    'cn-hangzhou'  # 地域
)

# 构建请求
request = DescribeMetricListRequest()
request.set_accept_format('json')
request.set_Namespace('acs_ecs_dashboard')  # 云产品命名空间
request.set_MetricName('CPUUtilization')     # 监控指标名称
request.set_Dimensions('{"instanceId":"i-xxxxx"}')  # 实例维度
request.set_StartTime('2026-06-29T00:00:00Z')
request.set_EndTime('2026-06-29T23:59:59Z')
request.set_Period('60')  # 采样周期(秒)

# 发起调用
response = client.do_action_with_exception(request)
print(response)

5.4 Java SDK调用示例

云监控同样支持使用Java SDK上报监控数据。在Maven项目中引入依赖:

<dependency>
    <groupId>com.aliyun</groupId>
    <artifactId>aliyun-java-sdk-core</artifactId>
    <version>3.2.6</version>
</dependency>
<dependency>
    <groupId>com.aliyun.openservices</groupId>
    <artifactId>aliyun-cms</artifactId>
    <version>0.2.4</version>
</dependency>

上报自定义监控数据的示例:

String endPoint = "https://metrichub-cms-cn-hangzhou.aliyuncs.com";
CMSClient cmsClient = new CMSClient(endPoint, accessKey, accessSecret);

CustomMetricUploadRequest request = CustomMetricUploadRequest.builder()
    .append(CustomMetric.builder()
        .setMetricName("myCustomMetric")
        .setGroupId(54504L)
        .setTime(new Date())
        .setType(CustomMetric.TYPE_VALUE)
        .appendValue(MetricAttribute.VALUE, number)
        .appendDimension("key1", "value1")
        .appendDimension("key2", "value2")
        .build())
    .build();

CustomMetricUploadResponse response = cmsClient.putCustomMetric(request);

上报时必须指定 groupId 参数,即云监控应用分组ID。

六、自定义监控:业务指标的自主上报

6.1 自定义监控概述

自定义监控为您提供了自由定义监控项和报警规则的功能。您可以通过上报监控数据接口,将自己关心的业务指标上报至云监控,并在云监控上添加监控图表和设置报警规则。

这一功能特别适用于以下场景:

  • 业务系统有独特的性能指标(如订单处理速率、用户活跃数等)
  • 需要对特定业务流程进行监控
  • 现有云产品指标无法满足监控需求

6.2 通过CLI上报自定义监控数据

操作步骤:

  1. 在自定义监控数据所在服务器安装阿里云CLI
  2. 配置阿里云账号或RAM用户的AccessKey
  3. 在云监控控制台上创建指标仓库
  4. 通过CLI命令上报数据

指标仓库支持两种数据存储方案:

  • 日志服务:监控数据存储在当前账号的日志服务SLS中
  • 云监控存储:监控数据存储在云监控提供的私有存储空间中

6.3 使用限制

上报自定义监控数据时需要注意以下限制:华北2(北京)、华东2(上海)和华东1(杭州)地域的QPS限制为200。建议在本地聚合数据后再批量上报,以提高效率并避免触发限流。

七、Prometheus集成:云原生监控的最佳实践

7.1 Prometheus监控概述

云监控2.0深度集成了Prometheus监控能力,用户可以通过接入中心配置Prometheus自定义指标采集。这一集成方案让用户可以充分利用Prometheus生态的丰富 exporter 和查询能力,同时享受云监控的统一告警和可视化服务。

7.2 采集ECS部署的应用指标

配置流程:

  1. 进入云监控2.0控制台,选择对应区域的工作空间
  2. 在左侧导航栏中选择"接入中心"
  3. 搜索"Prometheus 自定义指标采集"
  4. 在运行环境类型中选择ECS(VPC)
  5. 选择目标ECS所属的VPC,按照需求填写配置信息

7.3 自建Prometheus的接入

对于已经自建了Prometheus服务的用户,可以在Prometheus的配置文件 prometheus.yaml 中配置对应的指标采集Job。每个核心组件对应一个Job配置,具体配置可参见对应核心组件指标说明文档。

八、日志探索:统一纳管与智能分析

日志探索是云监控2.0推出的日志分析功能,通过与日志服务SLS集成,实现对海量日志数据的统一纳管、建模与场景化分析。基于UModel关系建模引擎,建立日志数据与业务实体(如应用、主机、容器组等)的拓扑关联,打通指标、日志、事件的数据孤岛,助力企业快速定位根因,提升运维效率。

云监控与SLS的集成让用户无需编写代码即可分析日志数据、可视化监控结果和设置告警。这一轻量级、全托管的日志监控方案无需预置集群、无需维护管道。

九、仪表盘与可视化:监控数据的直观呈现

9.1 创建仪表盘

仪表盘是云监控2.0中可视化监控数据的主要方式:

  1. 登录云监控2.0控制台,选择目标工作空间
  2. 在左侧导航栏选择"仪表盘"
  3. 单击"新建仪表盘"
  4. 设置仪表盘名称后单击确定
  5. 在仪表盘详情页中,单击"添加可视化组件"

9.2 配置可视化组件

添加可视化组件时:

  • 选择图表类型(如折线图、柱状图、饼图、表格等)
  • 选择云产品及其监控项
  • 配置时间范围和聚合方式

对于自定义监控数据,需要先选择目标指标仓库,再选择具体的监控指标。

十、事件集成:第三方监控系统的统一接入

云监控2.0事件中心可以通过事件集成功能接入第三方监控平台或自定义系统的告警事件。通过字段映射将外部事件格式转换为云监控2.0的标准事件格式,从而实现统一管理多个监控平台的告警事件。

创建事件集成时,系统会生成一个唯一的事件上报接口地址:

https://{regionId}.log.aliyuncs.com/v1/events/{token}

Token是事件集成的唯一标识,用于验证事件来源。事件字段映射支持将第三方系统上报的事件数据转换为标准格式,目标字段包括ID、SOURCE、TIME、SUBJECT、SEVERITY、STATUS、LABELS等。

安全方面,事件集成支持HMAC-SHA256签名验证,若配置了secret则请求中必须携带签名参数。每个阿里云账号的事件上报限流阈值为每分钟1千条、每小时1万条、每天2万条。

十一、AI驱动的运维:CLI与Agent Skill

11.1 传统运维的痛点

随着云原生业务的持续扩张,资源监控、告警治理、指标查询、应用接入等运维工作的复杂度持续提升。传统运维模式存在明显的短板:

  • 操作碎片化:接入集群、创建告警、查询指标需要切换控制台或调用多套API,每套接口参数规则不统一
  • 重复脚本开发:每次新业务上线需要重新编写API调用脚本,复用性差
  • AI执行无可信入口:普通AI生成脚本缺少权限管控和操作确认机制
  • 缺少全链路审计:多步骤操作分散在控制台和各类脚本中,无法统一记录
  • 多环境适配繁琐:区分开发、测试、生产资源时需手动切换参数和凭证

11.2 云监控CLI工具

阿里云推出了 aliyun cms2 云监控CLI工具,将云监控2.0控制台的全部能力收敛为标准化命令行。CLI工具覆盖接入、Prometheus、APM、告警、指标查询等全场景。

使用前需确保环境就绪:

# 确认CLI已安装且版本 >= 3.3.15
aliyun version

# 验证cms2插件可用
aliyun cms2 --help

# 配置凭证(如尚未配置)
aliyun configure

CLI接入APM的六步流程:

# Step 1: 获取账号ID
aliyun sts get-caller-identity --force -o json

# Step 2: 初始化APM基础设施(幂等)
aliyun cms2 apm configuration create \
  --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
  --region cn-hangzhou

# Step 3: 获取接入凭证
aliyun cms2 apm configuration get \
  --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
  --region cn-hangzhou -o json

11.3 AI Agent Skill

更进一步,阿里云将CLI能力封装为 alibabacloud-cms-manage Skill,实现了基于AI Agent的智能化可观测接入。用户只需用自然语言描述需求,AI Agent即可自动编排CLI命令完成全流程。

这种模式形成了"人输入目标—AI编排执行—结果审计"的自动化运维闭环。CLI工具内置了 --help--show-schema--show-example-body 等参数,AI可自动读取接口入参和返回样例,无需人工整理文档。

AI Agent Skill覆盖了ACK集群接入、告警管理、Prometheus运维、APM接入、指标检索五大高频运维场景。

十二、最佳实践与注意事项

12.1 权限管理最佳实践

强烈建议使用RAM用户进行日常运维和API调用,避免使用主账号AccessKey。根据最小权限原则,为不同角色授予不同级别的权限:

  • 运维人员:AliyunCloudMonitorFullAccess
  • 只读查看人员:AliyunCloudMonitorReadOnlyAccess
  • 指标查询人员:AliyunCloudMonitorMetricDataReadOnlyAccess

12.2 告警配置最佳实践

  • 合理设置告警检测周期和通道沉默周期,避免告警风暴
  • 利用通知策略的合并降噪功能减少重复通知
  • 将告警规则与通知策略解耦,修改通知方式时无需改动告警规则
  • 为不同严重级别配置不同的通知渠道和通知对象

12.3 成本优化建议

  • 优先使用VPC接入地址进行API调用,降低公网流量费用
  • 合理设置监控数据的存储周期,避免不必要的历史数据存储
  • 自定义监控数据在本地聚合后再批量上报,减少API调用次数
  • 关注各产品的计费说明,如Prometheus写入费用和SLS存储费用

结语

阿里云云监控2.0作为一个一站式可观测平台,通过统一的工作空间、接入中心、告警管理和可视化能力,大幅降低了企业构建全栈监控体系的门槛。无论是通过控制台进行可视化操作,还是通过OpenAPI、SDK、CLI进行程序化集成,亦或是借助AI Agent Skill实现智能化运维,云监控2.0都为不同规模的团队提供了灵活的选择。

掌握云监控的对接使用方法,不仅可以帮助运维团队快速发现和定位问题,更能通过智能化的分析能力提前预防故障,为业务的稳定运行提供坚实保障。

常见问题解答

问:云监控2.0和旧版云监控CMS有什么区别?
答:云监控2.0是融合了日志服务SLS、云监控CMS和应用实时监控服务ARMS三大产品能力后全新升级的一站式可观测平台。它不仅提供了更统一的用户体验,还增加了AI智能分析、智能根因定位等高级功能。

问:如何为不同的业务团队隔离监控数据?
答:可以通过创建工作空间来实现资源隔离。为每个业务团队或每个环境(开发、测试、生产)创建独立的工作空间,每个工作空间拥有自己的对象集,资源相互隔离。

问:云监控支持哪些告警通知渠道?
答:云监控支持电话、短信、邮件、钉钉、企业微信、飞书、Slack和Webhook等多种通知渠道。用户可以通过通知模板自定义不同渠道的通知内容格式。

问:非阿里云的服务器能否接入云监控?
答:可以。非阿里云ECS主机可以通过安装LoongCollector采集器的方式接入云监控2.0。支持Linux操作系统(RHEL、CentOS、Debian、Ubuntu等),系统架构为amd64 (x86_64)。

问:如何将第三方监控系统的告警接入云监控?
答:可以通过云监控2.0的事件集成功能。在事件中心创建事件集成,系统会生成一个唯一的事件上报接口地址和Token。第三方系统将告警事件通过该接口上报,云监控会自动进行字段映射和格式转换。

问:使用云监控的API需要哪些权限准备?
答:建议使用RAM用户进行API调用。需要为RAM用户授予相应的云监控权限,如 AliyunCloudMonitorFullAccess(完整权限)、AliyunCloudMonitorReadOnlyAccess(只读权限)或 AliyunCloudMonitorMetricDataReadOnlyAccess(指标数据只读权限)。同时需要准备好AccessKey ID和AccessKey Secret。

相关文章

买阿里云服务器能便宜吗?十年代理揭秘 3 大省钱攻略!

买阿里云服务器能便宜吗?十年代理揭秘 3 大省钱攻略!

作为深耕阿里云代理领域 10 年的 “老司机”,经常被问到:“买阿里云服务器能便宜吗?有没有优惠价格?” 今天就用实打实的行业经验告诉你:不仅能便宜,选对渠道还能省一大笔! 这篇文章带你解锁阿里云服务…

做了 10 年腾讯云代理,我想跟你聊聊返佣那些事儿​

做了 10 年腾讯云代理,我想跟你聊聊返佣那些事儿​

最近总有朋友问我:“腾讯云有返点吗?腾讯云服务器能拿佣金不?返佣比例到底有多少?” 作为一个在腾讯云代理行业摸爬滚打了 10 年的 “老人”,今天就来跟大家好好…

阿里云代理商返佣机制深度解析:头部代理优势与企业合作策略

阿里云代理商返佣机制深度解析:头部代理优势与企业合作策略

阿里云代理商的核心价值定位1. 代理商的角色与职责阿里云代理商作为阿里云生态的核心合作伙伴,承担着双重核心职能:• 产品销售:负责推广销售阿里云全系列云产品,包括云服务器ECS、云数据库RDS、对象存…

阿里云代理商有哪些?阿里云代理返点是真的么?

阿里云代理商有哪些?阿里云代理返点是真的么?

一,阿里云代理商基本介绍阿里云代理商通俗一点,就是指从事阿里云云服务器,云数据库等阿里云公有云产品销售的代理商,每销售一件阿里云公有云产品出去,阿里云给予该代理商一定比例的提成。在阿里云官方定义中,这…

2026年阿里云代理商政策深度解析:战略级代理引领AI时代上云

2026年阿里云代理商政策深度解析:战略级代理引领AI时代上云

核心摘要本文全面解读阿里云2026年合作伙伴政策升级,聚焦新增「战略级代理」梯队的核心权益、「三维返点体系」的激励逻辑,以及从「销售驱动」到「AI价值驱动」的战略转型。结合上海汪远信息科技有限公司作为…

阿里云代理选择指南:从资质鉴别到场景适配,上海汪远信息引领合规上云新路径

阿里云代理选择指南:从资质鉴别到场景适配,上海汪远信息引领合规上云新路径

核心摘要本文系统梳理阿里云代理选择的三大核心标准与四大避坑技巧,深度解析全国核心代理上海汪远信息科技有限公司的合规资质、全生命周期服务能力及跨区域资源优势。结合阿里云2026年合作伙伴政策,为不同规模…