华为云MapReduce服务MRS对接使用完全指南:从集群创建到存算分离实战

apphuang2026年06月26日 23:54:552

1. 华为云MapReduce服务MRS概述

华为云MapReduce服务(MRS)是一个在华为云平台上部署、管理和运维大数据集群的一站式服务。它基于开源Hadoop生态,将复杂的分布式系统基础架构(如Hadoop、Spark、HBase、Kafka、Flink等)以托管集群的形式提供给用户,让用户能够专注于业务数据的处理与分析,而无需关心底层硬件部署、软件安装、版本兼容性及日常运维等繁琐事务。

MRS的核心价值在于其企业级大数据平台的一键式交付能力。用户通过选择集群类型、版本和节点规格,MRS服务会自动完成大数据平台的安装部署和参数调优。MRS支持集群的生命周期管理,包括创建集群和删除集群。创建集群时支持用户定制集群的类型、组件范围、各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息等。删除集群时,MRS会将集群相关的资源全部释放。

MRS适用于IoT、电子商务、金融、制造、医疗、能源和政府等多个行业的大数据处理场景。典型的应用场景包括海量数据分析、海量数据存储和实时数据处理。在海量数据分析场景中,MRS可以利用OBS实现低成本存储,利用Hive实现TB/PB级的数据分析。在海量数据存储场景中,MRS可以利用Kafka实现海量数据的实时接入,利用HBase实现海量数据存储并支持毫秒级数据查询。在实时数据处理场景中,MRS常用于异常检测、欺诈识别、基于规则告警、业务流程监控等。

需要先登录华为云控制台,点击:华为云控制台,还没有账号,点击:注册并关联,已有账号点击:登录后关联

2. MRS对接前的准备工作

2.1 IAM用户与权限配置

在使用MRS服务之前,需要完成IAM(统一身份认证服务)层面的权限配置。默认情况下,管理员创建的IAM用户没有任何权限,需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限。

具体操作步骤如下:首先登录华为云控制台,进入IAM服务控制台。根据企业的业务组织,在华为账号中给不同职能部门的员工创建IAM用户,让员工拥有唯一安全凭证并使用MRS资源。然后根据企业用户的职能设置不同的访问权限,以达到用户之间的权限隔离。授权完成后,用户就可以基于被授予的权限对云服务进行操作。验证权限是否生效的方式是尝试购买MRS集群——如果无法购买(假设当前权限仅包含MRS ReadOnlyAccess),则说明权限配置已生效。

2.2 虚拟私有云VPC与子网规划

创建MRS集群时需要选择VPC和子网。不同区域的云服务产品之间内网互不相通,因此应就近选择靠近业务所在地的区域,以减少网络时延、提高访问速度。如果当前账号下还没有VPC,需要先创建一个新的VPC;如果VPC下未创建子网,也需要先创建子网。MRS集群创建后,集群内的所有节点都会部署在该VPC和子网内,后续与OBS、RDS等其他云服务的对接也需要考虑网络互通性。

2.3 安全组配置

创建MRS集群时,用户可以选择让系统自动创建安全组,也可以手动选择已有的安全组。MRS集群所在的安全组需要确保当前用户所在的IP地址范围允许访问TCP 9022端口,以确保用户可以正常访问集群的Manager管理界面。如果MRS集群Manager已绑定了弹性公网IP,可以在集群网络信息列表中快速为当前安全组添加放通TCP 9022端口的规则。安全组还可以设置规则来允许或拒绝来自特定IP地址或IP地址范围的流量,有效阻止来自已知恶意IP地址的访问。

3. MRS集群创建

3.1 快速创建集群

MRS提供了快速创建集群的方式,适合初次接触MRS的用户或需要快速搭建测试环境的场景。快速创建的步骤如下:

  1. 登录MRS管理控制台,在服务列表中搜索“MapReduce服务 MRS”,进入MRS服务管理控制台。
  2. 单击“创建集群”,进入创建集群页面,选择“快速创建”页签(部分区域显示为“快速购买”)。
  3. 根据实际业务规划填写集群配置信息,包括区域、集群名称、集群类型、版本类型、集群版本、组件选择、可用区、VPC、子网、集群节点配置、Kerberos认证开关等。

集群创建需要一定时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”。MRS系统界面支持同一时间并发创建10个集群,且最多支持管理100个集群。

3.2 自定义创建集群

自定义创建方式允许用户灵活地选择配置项,针对不同的应用场景选择不同规格的弹性云服务器,全方位贴合业务诉求。自定义创建的步骤如下:

  1. 登录MRS管理控制台,单击“创建集群”,进入创建集群页面。
  2. 在集群页面选择“自定义创建”页签。
  3. 配置软件配置信息后单击“下一步”。软件配置包括区域、集群名称、集群版本、集群类型(分析集群/流式集群/混合集群/自定义)、组件选择等。其中分析集群用来做离线数据分析,提供Hadoop体系的组件;流式集群用来做流处理任务,提供流式处理组件;混合集群兼具两者功能;自定义集群允许用户按业务需求调整集群服务的部署方式。
  4. 配置硬件配置信息后单击“下一步”。硬件配置涉及Master节点、Core节点和Task节点的规格与数量。Master节点是集群的管理节点,不可扩容;Core节点支持存储和计算,可扩容缩容但缩容限制较多;Task节点仅用于计算,可弹性伸缩。
  5. 配置高级配置(可选)后单击“立即申请”。

当集群开启Kerberos认证时,系统会提示确认是否开启。Kerberos认证提供了更强的安全保障,适用于对数据安全要求较高的生产环境。

3.3 集群类型选择建议

不同类型的集群适用不同的业务场景:分析集群适合离线批量数据分析场景,如日志分析、数据仓库ETL等;流式集群适合实时数据流处理场景,如实时日志采集、监控数据聚合等;混合集群适合同时需要离线分析和流处理的场景;自定义集群则适合对组件有特殊定制需求的场景。

4. MRS集群客户端安装

MRS集群创建完成后,用户需要通过客户端来连接集群并提交作业。MRS客户端的安装方式取决于集群的版本。

4.1 3.x及之后版本的客户端安装

对于MRS 3.x及之后版本,客户端安装步骤如下:

  1. 登录FusionInsight Manager管理界面。
  2. 在“集群”下拉列表中单击需要操作的集群名称。
  3. 选择“集群 > 服务 > 服务名称 > 更多 > 下载客户端”,弹出下载客户端信息提示框。
  4. 在“选择客户端类型”中选择“完整客户端”。完整客户端包含所有组件的客户端程序,适用于大多数场景。如果只需要更新客户端配置文件,可以选择“仅配置文件”。
  5. 将下载的客户端安装包上传到需要安装客户端的节点上,执行安装脚本完成安装。

4.2 3.x之前版本的客户端安装

对于MRS 3.x之前的版本,需要登录MRS Manager页面,选择“服务管理 > 下载客户端”来下载客户端安装包至主管理节点。然后使用IP地址搜索主管理节点并通过VNC登录,执行安装。

4.3 客户端环境配置

客户端安装完成后,需要配置环境变量才能使用。以客户端安装目录为/opt/client为例:

source /opt/client/bigdata_env

如果集群开启了Kerberos认证,还需要执行认证操作:

kinit 用户名

首次进行用户认证需要修改用户密码。认证通过后,就可以使用各组件客户端命令了。

5. MRS与OBS存算分离对接

存算分离是MRS的核心能力之一——将业务数据存储在OBS(对象存储服务)中,使用MRS集群仅作数据计算处理。这种模式提供了按需灵活扩展、低成本的海量数据分析方案。

5.1 存算分离的核心组件:Guardian

MRS通过集群内的Guardian组件对接OBS并行文件系统。Guardian为其他组件提供访问OBS的临时认证凭据和细粒度权限控制的能力。目前MRS集群中的Flink、Hadoop(HDFS/Yarn/MapReduce)、HetuEngine、Hive、Loader、Spark、Hudi等组件均支持对接OBS 3.0文件系统实现存算分离。

需要特别注意的是,在存算分离场景中必须使用OBS 3.0服务的并行文件系统存储数据,不能使用普通对象存储桶。普通对象桶会对集群性能产生较大影响。

5.2 存算分离配置流程

基于Guardian服务的存算分离配置流程如下:

  1. 安装Guardian服务:MRS集群内需提前安装Guardian、Ranger、Hadoop等基础组件。
  2. 创建OBS委托:用户需要创建一个具有OBS访问权限的委托,用于Guardian组件对接OBS时使用。委托类型选择“云服务”,云服务选择“弹性云服务器 ECS 裸金属服务器 BMS”,授权ECS或BMS调用OBS服务。然后搜索并勾选“OBS OperateAccess”策略完成授权。
  3. 开启Guardian对接OBS开关并配置组件:修改Guardian服务相关配置参数,配置IAM委托认证信息。
  4. 配置组件数据回收站目录清理策略:在存算分离场景下,对接OBS的组件默认开启了数据防误删功能,用户删除数据时被删除对象会移动至回收站目录。需要在OBS中为“/user/.Trash”目录配置生命周期策略,避免存储空间被占满。
  5. 组件对接OBS:在具备OBS资源访问权限后,MRS集群内组件可直接访问对应路径。

5.3 为MRS集群配置委托

配置存算分离支持在新建集群时配置委托,也支持为已有集群绑定委托。为已有集群配置委托的步骤如下:

  1. 登录MRS控制台,在导航栏选择“现有集群”。
  2. 单击集群名称进入集群详情页面。
  3. 在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。
  4. 单击“委托”右侧的“选择委托”,选择已创建好的OBS委托。

5.4 组件通过obs://协议访问OBS

MRS 1.9.2及之后的版本支持使用obs://的方式对接OBS服务,当前主要支持的组件为Hadoop、Hive、Spark、Presto、Flink。HBase组件使用obs://方式对接OBS暂不支持。

通过obs://协议,用户可以直接在Hive中创建指向OBS的外部表。以下是一个完整的Hive建表示例:

CREATE EXTERNAL TABLE IF NOT EXISTS user_behavior (
    user_id STRING COMMENT '用户ID',
    action_type STRING COMMENT '行为类型',
    action_time STRING COMMENT '行为时间',
    product_id STRING COMMENT '商品ID'
)
COMMENT '用户行为分析表'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION 'obs://my-bucket/data/user_behavior/';

在Spark中读写OBS数据的示例代码如下(使用PySpark):

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("OBSReadWriteExample") \
    .getOrCreate()

# 从OBS读取数据
df = spark.read \
    .option("header", "true") \
    .csv("obs://my-bucket/input/data.csv")

# 数据处理
df_filtered = df.filter(df["age"] > 18)

# 将结果写入OBS
df_filtered.write \
    .mode("overwrite") \
    .parquet("obs://my-bucket/output/result/")

spark.stop()

5.5 存算分离的权限控制

基于Guardian服务的存算分离场景下,对于开启了Ranger鉴权的MRS集群,Ranger管理员可以通过Ranger为集群用户配置OBS目录或文件的读、写权限。同时,基于Guardian权限模型的存算分离还依赖Hive级联授权功能,实现用户基于Ranger对业务表授权后自动细粒度关联OBS对应存储目录的权限。也就是说,用户只需在Ranger页面上对业务表进行一次授权,系统就会自动关联数据存储源的权限,不需要感知表的底层存储路径。

6. MRS与RDS MySQL元数据外置对接

对于生产环境的MRS集群,建议将Hive和Ranger的元数据外置到云数据库RDS for MySQL中,以避免元数据随集群删除而丢失,同时也能提升元数据管理的稳定性和性能。

6.1 元数据外置的应用场景

元数据外置适用于需要长期保存Hive表结构、分区信息以及Ranger权限策略等元数据的场景。当集群因故障或运维需要被删除时,元数据依然保存在RDS中,重建集群后只需重新配置数据连接即可恢复原有的元数据。

6.2 配置步骤

配置元数据外置的MRS存算分离集群的操作流程如下:

  1. 创建MRS集群:创建一个包含Guardian、Hive、Ranger、Spark组件的MRS集群。本文以MRS 3.5.0-LTS版本为例,集群已开启Kerberos认证。集群购买成功后,在集群任一节点安装集群客户端。
  2. 创建并配置RDS实例:登录RDS管理控制台购买RDS实例。为了保证集群与RDS数据库的网络连通,建议RDS实例与MRS集群的VPC和子网一致。RDS实例的安全组入方向规则需要放通MySQL数据库端口3306。Hive支持对接RDS服务的MySQL 5.7.x、MySQL 8.0和PostgreSQL14版本。
  3. 配置MRS数据连接及Guardian对接OBS:配置Hive和Ranger数据连接,并完成Guardian对接OBS的配置。
  4. 元数据外置验证:操作完成后验证Hive和Ranger元数据是否成功外置到RDS MySQL数据库中。

7. MRS与DataArts Studio数据集成对接

DataArts Studio是华为云的一站式数据治理中心,支持对接MRS Hive、HDFS、HBase、Spark、ClickHouse等大数据组件。

7.1 连接配置

在DataArts Studio中新建与MRS Hive数据湖的连接时,需要提前确保已创建好所要连接的数据湖(MRS集群)。需要注意的是,DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群,对接时应注意Kerberos加密类型应为“aes256-sha1,aes128-sha1”。

7.2 数据集成场景

在数据集成场景中,可以通过DataArts Studio的数据集成模块(CDM)创建数据迁移任务。典型的做法是创建两个连接——一个源连接(如OBS连接,用于读取存储在OBS上的原始数据)和一个目的连接(如MRS Hive连接,用于将数据写入MRS Hive数据库)。通过全向导式的配置管理,支持单表、整库、增量、周期性数据集成。

8. MRS集群监控与告警配置

MRS提供了完善的监控告警机制,帮助运维人员及时发现问题。

8.1 阈值告警配置

MRS支持配置监控指标阈值来关注各指标的健康情况。配置路径为:在FusionInsight Manager界面选择“运维 > 告警 > 阈值设置”。在监控分类中选择集群内指定主机或服务的监控指标,依据规划选择监控指标并设置其基线。当出现异常数据并满足预设条件后,系统会触发告警信息并在告警页面中显示。当指标恢复到正常范围(小于或等于阈值)时,告警自动恢复。

8.2 常用监控指标

常用的监控指标包括但不限于:Hive服务进程非堆内存使用率、主机信号量集使用率、JobHistoryServer非堆内存使用率等。用户可以根据实际业务需求自定义需要监控的指标及其阈值。

9. MRS计费模式

MRS当前支持两种计费模式:包年/包月和按需计费。

9.1 包年/包月

包年/包月模式根据集群购买时长一次性支付集群费用,最短时长为1个月,最长时长为1年。这种模式适合长期稳定运行的 production 集群,整体成本更低。

9.2 按需计费

按需计费模式下,节点按实际使用时长计费,计费周期为一小时。这种模式适合短期测试、开发环境或业务量波动较大的场景。按需计费是后付费模式,先使用再付费,按照集群实际使用时长计费。如果余额不足会导致欠费。

9.3 计费项说明

MRS的计费项主要包括核个数乘以节点个数乘以核规格单价再乘以购买时长。不同类型、不同Region集群的单核价格不同,具体计费请以MRS价格计算器中的价格为准。

10. 总结与最佳实践建议

本文全面介绍了华为云MapReduce服务MRS的对接使用方法。从IAM权限配置、VPC规划、安全组设置等准备工作开始,到集群的快速创建与自定义创建,再到集群客户端的安装配置,逐步深入。核心重点在于MRS与OBS的存算分离对接——通过Guardian组件和委托机制,实现计算与存储的解耦,既降低了存储成本又获得了弹性扩展能力。元数据外置到RDS MySQL的配置进一步提升了生产环境的可靠性。与DataArts Studio的集成则为数据治理提供了完整的工具链。

在实际使用中,建议遵循以下最佳实践:生产环境优先选择包年/包月计费模式以降低成本;存算分离场景务必使用OBS并行文件系统;开启Kerberos认证保障数据安全;配置合理的监控告警阈值及时发现异常;元数据外置到RDS避免元数据丢失;使用IAM进行精细的权限管理实现最小权限原则。

常见问题解答

问1:MRS集群创建后如何连接?
答:MRS集群创建后需要通过安装客户端来连接。对于3.x及之后版本,登录FusionInsight Manager,在集群服务中选择“下载客户端”,下载完整客户端安装包后安装并配置环境变量即可。如果集群开启了Kerberos认证,还需要执行kinit命令进行安全认证。

问2:MRS存算分离中,为什么要使用OBS并行文件系统而不是普通对象存储桶?
答:在存算分离场景中必须使用OBS并行文件系统。普通对象存储桶不支持标准的文件系统语义操作,会对集群性能产生较大影响,可能导致组件读写数据失败或性能严重下降。

问3:哪些MRS组件支持通过obs://协议访问OBS?
答:MRS 1.9.2及之后的版本中,Hadoop、Hive、Spark、Presto、Flink等组件支持使用obs://方式对接OBS服务。HBase组件暂不支持obs://方式对接OBS,需要使用其他方式。

问4:MRS集群的元数据为什么要外置到RDS?
答:元数据外置到RDS主要有两个原因:一是避免元数据随集群删除而丢失,集群重建后只需重新配置数据连接即可恢复;二是RDS作为专业的数据库服务,能够提供更高的稳定性和性能,适合生产环境。

问5:MRS的包年/包月和按需计费如何选择?
答:包年/包月适合长期稳定运行的production集群,整体成本更低;按需计费适合短期测试、开发环境或业务量波动较大的场景。按需计费按实际使用时长(小时)计费,用多少付多少;包年/包月则需一次性预付1个月至1年的费用。

问6:DataArts Studio对接MRS时有什么注意事项?
答:DataArts Studio对接MRS时需要注意Kerberos加密类型的兼容性——不支持“aes256-sha2,aes128-sha2”类型,应使用“aes256-sha1,aes128-sha1”。同时,MRS为非全托管服务,DataArts Studio无法直接与其进行连接,需要通过数据连接配置来实现。

相关文章

华为云服务器购买怎么便宜?小公司省钱攻略来了!这样买立省好几千​

华为云服务器购买怎么便宜?小公司省钱攻略来了!这样买立省好几千​

很多朋友都在吐槽:“华为云服务器太贵了,预算有限实在买不起!” 其实,买华为云服务器贵不贵,关键看你会不会选、会不会买。今天就来给大家分享一套超实用的省钱攻略,小公司、创业团队也能轻松用得起稳定又安全…

华为云服务器采购总嫌贵?30%华为云返点返佣 + 旗舰级代理保障,这波省钱操作别错过!

华为云服务器采购总嫌贵?30%华为云返点返佣 + 旗舰级代理保障,这波省钱操作别错过!

最近不少做 IT 运维或企业采购的朋友跟我吐槽,公司要上华为云服务器,去官网一看报价直接犯了难 —— 按年付费算下来,比预期预算高出不少。要是赶上业务扩张需要多台服务器,这笔开支更是让财务部门直皱眉。…

2026华为云返点返佣政策深度解析:头部代理返佣优势与企业合作指南

2026华为云返点返佣政策深度解析:头部代理返佣优势与企业合作指南

上海汪远信息科技有限所在公司年销华为云产品3亿+,属于头部代理梯队,可为合作客户提供最高30%的返佣优惠,直接帮助企业降低30%的云资源成本。…

华为云代理商有哪些?华为云代理返点是真的么?

华为云代理商有哪些?华为云代理返点是真的么?

一,华为云代理商简介华为云代理商,顾名思义就是替华为云做华为云服务器数据库等公有云产品推广的代理商,每推广出一单华为云服务器,华为云会跟这个代理商结算佣金,佣金比例分为月度佣金,季度佣金和年度佣金,华…

2026华为云返点返佣政策深度解析:头部代理返佣优势与企业合作指南

2026华为云返点返佣政策深度解析:头部代理返佣优势与企业合作指南

一、华为云代理商的核心价值定位1. 代理商的角色与职责华为云代理商作为华为云生态的核心合作伙伴,承担着三重核心职能:•产品推广销售:负责推广销售华为云全系列云产品,包括云服务器ECS、云数据…

上海汪远信息:年销1.5亿+的头部华为云代理商,10年深耕为企业上云保驾护航

上海汪远信息:年销1.5亿+的头部华为云代理商,10年深耕为企业上云保驾护航

核心摘要本文深度解析华为云代理商行业现状,揭示小代理商生存困境的核心原因(业绩压力大、垫资周期长、资金链脆弱),重点推荐上海汪远信息科技有限公司——一家拥有10年华为云代理经验、年销量超1.5亿的全国…