华为云多模态大模型从开通到实战:完整对接使用指南

apphuang2026年06月16日 16:12:3410

1. 华为云多模态大模型概述

多模态大模型是人工智能领域的重要发展方向,它集成和处理两种或两种以上不同类型的信息或数据,在机器学习和人工智能领域,多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。华为云盘古多模态大模型融合文本、图像、视频等数据,利用深度学习实现跨模态语义对齐,实现多种模态的理解。

在华为开发者大会2025上,华为云对五大基础模型进行全面升级,盘古多模态大模型是其中的核心组成部分。华为云全新发布了基于盘古多模态大模型的世界模型,可以为智能驾驶、具身智能机器人的训练构建所需的数字物理空间,实现持续优化迭代。例如,输入首帧的行车场景、行车控制信息和路网数据,盘古世界模型就可以生成每路摄像头的行车视频和激光雷达的点云,为智能驾驶生成大量训练数据。

ModelArts Studio大模型开发平台支持纳管盘古大模型及三方大模型,模型在平台部署后,可以通过API调用推理接口。平台为用户提供了多种规格的多模态大模型,以满足不同场景和需求。

需要先登录华为云控制台,点击:华为云控制台,还没有账号,点击:注册并关联,已有账号点击:登录后关联

2. 盘古多模态大模型核心能力与规格

2.1 核心能力

盘古多模态大模型具备以下核心能力:

  • 图像理解:支持单图或多图输入,适用于图像描述、视觉问答、物体定位等多种任务。多模态对话问答接口提供图片描述、视觉问答、OCR等能力。
  • 图像生成:支持1024*1024分辨率的图像生成,支持写实、油画、动漫等数十种生成风格。
  • 视频生成:支持文本生成视频和图生视频,支持多种长宽比,时长5秒的视频生成。
  • 视频续写:支持续写96帧(24帧率的视频续写约4秒)。

2.2 模型规格清单

ModelArts Studio平台当前支持以下多模态大模型规格:

  • Pangu-MM-M2-Text2Video-1.0.0:2025年4月发布的文本生成视频版本,支持5种长宽比、时长5秒的视频生成,需要8个推理单元部署。
  • Pangu-MM-M2-AIGVideo-1.0.0:2025年4月发布的图生视频版本,支持6种长宽比,时长5秒的视频生成,视频续写支持96帧,需要8个推理单元部署。
  • Pangu-MM-M1-Txt2Img-1.0.0:2025年4月发布的图像生成版本,支持1024*1024分辨率,支持数十种生成风格,需要8个推理单元部署。
  • Pangu-MM-M2-Img2Txt-16K-V5.0.4.2:2026年2月发布的多模态理解大模型版本,具有百亿级参数量,支持图像理解,支持预训练和微调。

2.3 平台操作支持

不同模型在预训练、微调、模型评测、模型压缩、在线推理和体验中心能力调测等方面的支持程度各不相同。其中Pangu-MM-M2-Img2Txt-16K-V5.0.4.2支持全部六项操作,是最全面的多模态理解模型。

3. 多模态大模型的部署

3.1 创建部署任务

在使用多模态大模型之前,需要先在ModelArts Studio平台完成模型部署。部署步骤如下:

  1. 登录ModelArts Studio平台,在“我的空间”模块单击进入所需空间。
  2. 在左侧导航栏中选择“模型开发 > 模型部署”,单击界面右上角“创建部署”。
  3. 在“创建部署”页面完成部署参数设置。

3.2 部署参数配置

部署参数包括以下关键配置:

  • 选择模型:来源可选择“模型广场”(预置模型)或“我的资产”(经过训练的用户模型);类型选择“多模态模型”,并选择具体模型和版本。
  • 部署方式:选择“云上部署”,算法部署至平台提供的资源池中。
  • 安全护栏:开启并同意授权,保障模型调用安全。当前支持安全护栏基础版,内置了默认的内容审核规则。
  • 实例数:设置部署模型所需的实例数,单次部署服务时,部署实例个数建议不大于10,否则可能触发限流导致部署失败。
  • 订阅提醒:开启后支持预置通知和SMN通知两种订阅类型。
  • 服务名称与描述:设置部署任务的名称和可选描述。

3.3 部署任务管理

部署任务创建后,可以进行以下管理操作:

  • 模型更新:在详情页面单击“模型更新”,可以替换模型或修改环境变量。
  • 修改部署:修改部署时模型无法替换,但可以调整其他配置。
  • 升级方式:支持全量升级和滚动升级两种方式。全量升级时旧版本和新版本服务同时运行;滚动升级通过空出部分实例资源逐个或逐批升级。
  • 扩缩容:在模型详情页面单击“扩缩容”,可以修改实例数。

4. 获取API请求地址与认证信息

4.1 API请求地址

API请求地址由API接口域名和API访问路径(URI)拼接形成。模型部署成功后,可以通过API调用多模态大模型。多模态推理服务提供两种推理接口:

  • 盘古推理接口(V1推理接口)
  • OpenAI兼容接口(V2推理接口)

V1和V2接口的鉴权方式不同,请求体和返回体略有差异。

API访问路径格式示例:

POST /v1/{project_id}/deployments/{deployment_id}/chat/completions

其中project_id为项目ID,deployment_id为模型部署ID。

4.2 认证鉴权

调用API需要进行认证鉴权。Token的有效期为24小时,使用时可以缓存Token以避免频繁调用。如果华为云账号已升级为华为账号,将不支持获取账号Token,建议创建IAM用户并获取IAM用户的Token。

获取Token的步骤:

  1. 登录“我的凭证 > API凭证”页面,获取user name、domain name、project id。
  2. 调用“获取Token”接口获取Token。

4.2.1 V1接口认证方式

V1推理接口支持两种认证方式:

  • Token认证:在请求Header中携带X-Auth-Token参数。
  • API Key认证:在请求Header中携带X-Apig-AppCode参数。

4.2.2 V2接口认证方式

V2接口采用OpenAI兼容的认证方式,通常使用Bearer Token或API Key进行认证。

5. 使用Postman调用多模态大模型API

5.1 准备工作

使用Postman调用API前需要准备以下信息:

  • API请求地址(接口域名+URI)
  • 认证Token或AppCode
  • 请求Body内容

5.2 Postman调用步骤

  1. 在Postman中新建POST请求,填入API请求地址。
  2. 填写请求Header参数:
    • Content-Type: application/json
    • X-Auth-Token: 获取的Token值(Token认证方式)
  3. 在Postman中选择“Body > raw”选项,填写请求Body。
  4. 单击“Send”按钮发送请求。

5.3 多模态请求Body示例

5.3.1 图像理解请求示例

多模态模型的请求体为list类型。以下为图像理解的多模态请求示例:

{
  "inputs": [
    {
      "type": "text",
      "text": "请描述这张图片的内容"
    },
    {
      "type": "image_url",
      "image_url": {
        "url": "https://example.com/image.jpg"
      }
    }
  ],
  "parameters": {
    "max_tokens": 512,
    "temperature": 0.7
  }
}

其中image_url参数的取值需要根据实际情况进行修改。

5.3.2 图生视频请求示例

调用图生视频API的请求Body示例:

{
  "prompt": "提示词,中英文都可以",
  "image": "图片URL",
  "video_config": {
    "resolution": "720p",
    "duration": 5,
    "aspect_ratio": "16:9"
  }
}

5.3.3 视频续写请求示例

调用视频续写API的请求Body示例:

{
  "prompt": "提示词,中英文都可以",
  "origin_video": "视频URL",
  "video_config": {
    "resolution": "720p",
    "aspect_ratio": "16:9"
  }
}

6. 使用Python代码调用多模态大模型

6.1 环境准备

使用Python调用API需要先下载Python SDK并在开发工具中完成SDK配置。具体操作请参见在Python环境中集成API请求签名的SDK。

6.2 Python调用示例(Token认证方式)

import requests
import json

# API配置
api_url = "https://{endpoint}/v1/{project_id}/deployments/{deployment_id}/chat/completions"
token = "your_x_auth_token"

# 请求头
headers = {
    "Content-Type": "application/json",
    "X-Auth-Token": token
}

# 多模态请求体 - 图像理解
payload = {
    "inputs": [
        {
            "type": "text",
            "text": "请详细描述这张图片中的内容"
        },
        {
            "type": "image_url",
            "image_url": {
                "url": "https://example.com/sample_image.jpg"
            }
 }
    ],
    "parameters": {
        "max_tokens": 1024,
        "temperature": 0.7,
        "top_p": 0.9
    }
}

# 发送请求
try:
    response = requests.post(api_url, headers=headers, json=payload, timeout=30)
    response.raise_for_status()
    result = response.json()
    print("模型响应:", json.dumps(result, ensure_ascii=False, indent=2))
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")
    if hasattr(e.response, 'text'):
        print(f"响应内容: {e.response.text}")

6.3 Python调用示例(AppCode认证方式)

import requests
import json
import base64

# API配置
api_url = "https://{endpoint}/v1/{project_id}/deployments/{deployment_id}/chat/completions"
app_code = "your_app_code"

# 请求头 - AppCode认证
headers = {
    "Content-Type": "application/json",
    "X-Apig-AppCode": app_code
}

# 多模态请求体 - 支持图片base64编码
def encode_image_to_base64(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# 方式一:使用图片URL
payload_url = {
    "inputs": [
        {"type": "text", "text": "这张图片里有什么?"},
        {
            "type": "image_url",
            "image_url": {"url": "https://example.com/photo.jpg"}
        }
    ],
    "parameters": {"max_tokens": 512}
}

# 方式二:使用图片base64编码(本地图片)
# image_base64 = encode_image_to_base64("./local_image.jpg")
# payload_base64 = {
#     "inputs": [
#         {"type": "text", "text": "分析这张图片"},
#         {
#             "type": "image_url",
#             "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}
#         }
#     ],
#     "parameters": {"max_tokens": 512}
# }

# 发送请求
try:
    response = requests.post(api_url, headers=headers, json=payload_url, timeout=30)
    response.raise_for_status()
    result = response.json()
    print("模型响应:", json.dumps(result, ensure_ascii=False, indent=2))
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

6.4 视频生成Python调用示例

import requests
import json

# 图生视频API调用
def text_to_video(prompt, image_url=None):
    api_url = "https://{endpoint}/v1/{project_id}/deployments/{deployment_id}/generate"
    headers = {
        "Content-Type": "application/json",
        "X-Auth-Token": "your_token"
    }
    
    payload = {
        "prompt": prompt,
        "video_config": {
            "resolution": "720p",
            "duration": 5,
            "aspect_ratio": "16:9"
        }
    }
    
    if image_url:
        payload["image"] = image_url
    
    response = requests.post(api_url, headers=headers, json=payload, timeout=120)
    return response.json()

# 调用示例
result = text_to_video(
    prompt="一只海豚在海面上跳跃,夕阳西下",
    image_url="https://example.com/dolphin_scene.jpg"
)
print(json.dumps(result, ensure_ascii=False, indent=2))

7. 使用体验中心零代码调测多模态大模型

7.1 体验中心功能介绍

“体验中心”功能支持用户直接调用订购的预置模型或经过训练的模型。在体验模型功能前需要先完成创建多模态大模型部署任务操作。

多模态大模型支持图像问答能力,在选择好订购的模型后,上传需要分析的图片,并在输入框中输入问题,模型就会基于图片内容回答问题。

7.2 体验中心操作步骤

  1. 登录ModelArts Studio大模型开发平台,进入所需空间。
  2. 在左侧导航栏中选择“体验中心”。
  3. 选择需要调用的服务,可从“预置服务”或“我的服务”中选择。
  4. 上传图片并输入问题,模型将基于图片内容生成回答。

7.3 模型调测

在AI原生应用引擎中,可以在左侧导航栏选择“模型中心 > 模型调测”进入调测页面。支持文本对话、图像理解、文本向量化和文本排序等多种类型模型的调测,可选择非流式和流式输出模式。调测模型时可以配置输出最大token数、温度、多样性等参数。

8. 成本优化与最佳实践

8.1 资源规划建议

多模态大模型的部署需要一定的推理单元资源,各模型通常需要8个推理单元部署。在部署时应根据实际业务需求合理规划实例数,避免资源浪费。

8.2 API调用优化

  • Token缓存:Token有效期为24小时,建议缓存Token避免频繁调用认证接口。
  • 批量处理:对于批量图像理解任务,可以将多张图片放在一个请求中处理。
  • 超时设置:视频生成等耗时操作需要设置合理的超时时间(如120秒以上)。

8.3 安全最佳实践

  • 使用IAM用户而非主账号进行API调用。
  • 开启安全护栏功能,保障内容安全。
  • 定期更换API密钥和Token。
  • 使用HTTPS协议进行API调用,确保传输安全。

8.4 常见错误处理

  • 签名过期:客户端签名时将本地时间作为时间戳进行签名,如果本地时间与北京时间相差超过15分钟,网关会认为签名过期。解决方法是将本地系统时间调整为与北京时间同步。
  • 服务未开通:报错提示服务未开通时,请先登录控制台开通所需服务,并检查开通服务区域与实际调用的API区域是否一致。
  • 认证失败:检查Token是否有效、AppCode是否正确,以及请求Header是否完整。

9. 总结

华为云多模态大模型通过ModelArts Studio平台提供了从模型部署、API调用到体验调测的完整工具链。开发者可以根据实际需求选择盘古多模态大模型的不同规格,通过V1或V2推理接口将多模态能力集成到自己的应用中。无论是图像理解、图像生成还是视频生成,华为云多模态大模型都提供了标准化的API接口和丰富的SDK支持,大幅降低了多模态AI应用的开发门槛。

在实际使用中,建议开发者先从体验中心快速验证模型效果,再通过API进行深度集成。同时注意合理规划资源、做好成本控制和安全防护,充分发挥多模态大模型在智能安防、内容审核、智能营销、自动驾驶等场景中的应用价值。

常见问题问答

问1:华为云多模态大模型支持哪些模态?
答:华为云盘古多模态大模型支持文本、图像、视频等多种模态的融合理解与生成。具体包括图像理解(图像描述、视觉问答、物体定位)、图像生成(支持数十种风格)、视频生成(文本生成视频、图生视频)和视频续写等功能。

问2:如何获取多模态大模型的API请求地址?
答:API请求地址由API接口域名和API访问路径(URI)拼接形成。模型在ModelArts Studio平台部署成功后,可以在模型详情页面获取部署ID,然后拼接成完整的API请求地址,格式为:https://{endpoint}/v1/{project_id}/deployments/{deployment_id}/chat/completions。

问3:V1和V2推理接口有什么区别?
答:V1是盘古推理接口,V2是OpenAI兼容接口。两者的鉴权方式不同,请求体和返回体也略有差异。V1接口支持Token认证和API Key认证两种方式,V2接口采用OpenAI兼容的认证方式。开发者可以根据自己的技术栈和偏好选择合适的接口。

问4:多模态模型的请求体中图片如何传递?
答:多模态模型支持两种图片传递方式:一是通过image_url参数传递图片的URL地址;二是将本地图片转换为base64编码后,以data:image/jpeg;base64,{base64编码}的格式传递。推荐使用URL方式,可以减少请求体大小和提高传输效率。

问5:调用API时遇到认证失败怎么办?
答:首先检查Token是否在有效期内(Token有效期为24小时),如果过期需要重新获取。其次确认请求Header是否正确设置了X-Auth-Token或X-Apig-AppCode。如果使用IAM用户,需要确保该用户已被授予调用API的必要权限。另外,检查本地系统时间是否与北京时间同步,时间差超过15分钟会导致签名过期。

问6:多模态大模型的部署需要多少资源?
答:华为云多模态大模型各规格通常需要8个推理单元进行部署。单次部署服务时,部署实例个数建议不大于10,否则可能触发限流导致部署失败。具体资源需求可以参考各模型规格的说明文档,根据实际业务量合理规划实例数。

相关文章

华为云服务器购买怎么便宜?小公司省钱攻略来了!这样买立省好几千​

华为云服务器购买怎么便宜?小公司省钱攻略来了!这样买立省好几千​

很多朋友都在吐槽:“华为云服务器太贵了,预算有限实在买不起!” 其实,买华为云服务器贵不贵,关键看你会不会选、会不会买。今天就来给大家分享一套超实用的省钱攻略,小公司、创业团队也能轻松用得起稳定又安全…

华为云服务器采购总嫌贵?30%华为云返点返佣 + 旗舰级代理保障,这波省钱操作别错过!

华为云服务器采购总嫌贵?30%华为云返点返佣 + 旗舰级代理保障,这波省钱操作别错过!

最近不少做 IT 运维或企业采购的朋友跟我吐槽,公司要上华为云服务器,去官网一看报价直接犯了难 —— 按年付费算下来,比预期预算高出不少。要是赶上业务扩张需要多台服务器,这笔开支更是让财务部门直皱眉。…

2026华为云返点返佣政策深度解析:头部代理返佣优势与企业合作指南

2026华为云返点返佣政策深度解析:头部代理返佣优势与企业合作指南

上海汪远信息科技有限所在公司年销华为云产品3亿+,属于头部代理梯队,可为合作客户提供最高30%的返佣优惠,直接帮助企业降低30%的云资源成本。…

2026华为云返点返佣政策深度解析:头部代理返佣优势与企业合作指南

2026华为云返点返佣政策深度解析:头部代理返佣优势与企业合作指南

一、华为云代理商的核心价值定位1. 代理商的角色与职责华为云代理商作为华为云生态的核心合作伙伴,承担着三重核心职能:•产品推广销售:负责推广销售华为云全系列云产品,包括云服务器ECS、云数据…

上海汪远信息:年销1.5亿+的头部华为云代理商,10年深耕为企业上云保驾护航

上海汪远信息:年销1.5亿+的头部华为云代理商,10年深耕为企业上云保驾护航

核心摘要本文深度解析华为云代理商行业现状,揭示小代理商生存困境的核心原因(业绩压力大、垫资周期长、资金链脆弱),重点推荐上海汪远信息科技有限公司——一家拥有10年华为云代理经验、年销量超1.5亿的全国…

数据的“深喉”与隐形金矿:华为云对象存储返点背后的降维真相

数据的“深喉”与隐形金矿:华为云对象存储返点背后的降维真相

你,真的以为企业的数据躺在云端就万事大吉了?在这个被字节、像素和信息流淹没的数字深海中,每一张图片、每一帧视频、每一份交易日志,都在夜以继日地发出无声的“求救信号”。它们一方面渴望着最安全、最坚不可摧…