阿里云悠船AI绘图大模型对接使用完全指南:从开通到生产级集成
引言:企业级AI绘图的正确打开方式
在AIGC浪潮席卷各行各业的今天,AI绘图已经从实验室走向了生产环境。设计师用它快速产出创意草图,游戏开发者用它生成角色概念与场景原画,电商运营用它批量制作商品主图与广告素材。然而,如何将AI绘图能力稳定、安全、高效地集成到企业自有产品中,始终是一个需要认真对待的技术课题。
阿里云悠船AI绘图大模型给出了一个值得关注的答案。它基于Midjourney提供企业级AI图像与视频生成能力,支持文生图、图像编辑、高清放大、风格转绘、视频生成等多种功能。通过标准RESTful API接入,开发者可以快速将AI创作能力集成到自有产品中。本文将从零开始,一步步带你走完从账号开通到生产级集成的完整路径。
需要先登录阿里云控制台,点击:阿里云控制台
一、产品定位与核心能力全景
在动手写代码之前,有必要先建立对悠船产品的整体认知。悠船是小船创意(上海)网络技术有限公司出品的生成式视觉艺术模型,其模型API不仅可以产出复杂、细腻的图像,还可以生成其他多种视觉形态,适应不同的创作需求。悠船的用户群体涵盖创意工作者、设计师、游戏开发者、教育培训机构和艺术家。
从技术架构来看,悠船基于DiT物理扩散模型与Transformer架构,擅长生成高饱和度的奇幻场景与写实图像,细节细腻。通过深度学习百万级优质视觉样本,实现了精准匹配用户需求的专业审美能力。
1.1 核心能力清单
悠船API提供了覆盖图像创作全流程的能力矩阵:
- 文生图/图生图:通过文本描述和/或参考图片生成高质量图像
- 图像编辑:支持局部重绘、风格变化、重塑、延展、扩图等二次编辑操作
- 高清放大:将图像提升至2K/4K分辨率
- 风格转绘:改变图像的纹理与风格(需v6.1及以上模型)
- 背景移除:自动去除图像背景
- 视频生成:基于图像首帧和文字提示生成5秒短视频,支持延长至21秒
1.2 模型版本矩阵
悠船提供了丰富的模型版本选择,每个版本在图像质量、风格取向和功能支持上各有侧重:
- v8.1:最新全面升级版本,原生2K高清(--hd),速度提升约5倍,增强文本渲染与提示词遵循能力
- v7:当前默认模型,显著提升文本和图像提示处理精度,优化人体结构和手部细节
- v6/v6.1:增强长提示词准确性,改进连贯性;v6.1速度更快,支持否定提示和转绘
- niji 6/niji 7:专注东方/动漫美学,提供精准角色控制和丰富风格化选项
- 视频模型:将静态图像转化为5秒动态视频,支持延长至21秒和1080P高清
二、开通服务与凭证获取
悠船AI绘图大模型部署在阿里云云市场,以SaaS形式交付。开通前需要明确一个重要前提:本文档适用于已在阿里云云市场开通悠船AI绘图大模型服务的企业用户,个人账号暂不支持开通。
2.1 开通步骤
第一步,访问阿里云云市场的悠船AI绘图大模型店铺页面:
https://market.aliyun.com/detail/cmgj00071203第二步,点击"立即购买",在弹出的"开通按量服务"窗口中勾选"同意《服务商用户协议》与《云市场平台服务协议》",点击"立即开通"。开通时云市场会校验阿里云账号的企业实名认证状态,仅经过企业实名认证的账号可以开通。
第三步,完成开通后,在云市场的"买家控制台"->"我的服务"栏目中找到已开通的悠船服务,点击"详情"按钮。
2.2 获取API凭证
在服务详情页面可以看到两组关键凭证:
- 机构号(x-youchuan-app):平台机构标识,用于识别调用方身份
- 授权码(x-youchuan-secret):机构授权凭证,用于身份验证
需要特别强调的是,机构号与授权码是API调用的唯一身份验证凭证,请妥善保管,切勿泄露至客户端代码或公共代码仓库中。
三、鉴权机制与请求结构
理解鉴权机制是成功调用API的第一步。悠船API采用双重请求头认证机制,所有API请求均需在HTTP请求头中携带两个字段:
| 请求头 | 类型 | 必填 | 说明 |
|---|---|---|---|
| x-youchuan-app | String | 是 | 平台机构标识,用于识别调用方身份 |
| x-youchuan-secret | String | 是 | 机构授权码,用于验证调用方权限 |
请求示例如下:
POST /v1/tob/diffusion HTTP/1.1
Host: ali.youchuan.cn
Content-Type: application/json
x-youchuan-app: YOUR_APP_ID
x-youchuan-secret: YOUR_SECRET_KEY所有API接口的Base URL均为:
https://ali.youchuan.cn四、快速开始:第一次图像生成
掌握了凭证和鉴权之后,就可以发起第一次图像生成了。图像生成接口(/v1/tob/diffusion)同时支持纯文本生图和图片引导生图。
4.1 纯文本生图(Python实现)
以下是最基础的文生图调用示例:
import requests
import json
url = "https://ali.youchuan.cn/v1/tob/diffusion"
headers = {
"Content-Type": "application/json",
"x-youchuan-app": "YOUR_APP_ID",
"x-youchuan-secret": "YOUR_SECRET_KEY"
}
data = {
"text": "A beautiful sunset over the ocean with gentle waves, digital art style",
"callback": "https://your-callback-url.com"
}
response = requests.post(url, headers=headers, json=data)
print(response.json())callback参数用于接收异步回调结果。如果不希望使用回调,也可以轮询查询任务状态,具体方式参见官方文档中的任务查询接口。
4.2 cURL方式调用
对于快速测试,cURL是最直接的方式:
curl -X POST https://ali.youchuan.cn/v1/tob/diffusion \
-H "Content-Type: application/json" \
-H "x-youchuan-app: YOUR_APP_ID" \
-H "x-youchuan-secret: YOUR_SECRET_KEY" \
-d '{"text":"A beautiful sunset over the ocean","callback":"https://your-callback-url.com"}'4.3 带图像提示的图生图
图生图通过在text字段中直接嵌入图片URL来实现:
data = {
"text": "https://example.com/ref-image.jpg A beautiful sunset over the mountains",
"callback": "https://your-callback-url.com"
}
response = requests.post(url, headers=headers, json=data)悠船会分析参考图像的核心元素——色彩、构图、主体等——并将其作为创建全新图像的灵感来源。图片URL与文本提示词之间用空格分隔即可。
五、核心API接口详解
悠船API提供了丰富的接口体系,覆盖从图像生成到视频制作的全链路。以下逐一解析主要接口的用途与调用方式。
5.1 图像生成接口(/v1/tob/diffusion)
这是最核心的接口,支持文生图和图生图两种模式。不同模型版本对该接口的支持程度略有差异:
| 接口 | 路径 | v7支持 | v8.1支持 | 说明 |
|---|---|---|---|---|
| 图像生成 | /v1/tob/diffusion | ✅ | ✅ | 文生图/图生图 |
| 变化 | /v1/tob/variation | ✅ | ✅ | 强烈与微妙变化 |
| 高清 | /v1/tob/upscale | ✅ | ⚠️ | v8.1使用--hd --seed方式 |
| 扩图 | /v1/tob/outpaint | ✅ | ❌ | v8.1暂不支持 |
| 区域重绘 | /v1/tob/inpaint | ✅ | ❌ | v8.1暂不支持 |
| 移除背景 | /v1/tob/remove-background | ✅ | ✅ | 自动去背景 |
5.2 图生视频接口(/v1/tob/video-diffusion)
视频生成是悠船的一大特色能力。视频模型可将静态图像转化为5秒动态视频序列,以单张图片作为首帧,配合可选的文字提示生成连贯的视频内容。
指定首帧图片有两种方式:
方式一:使用悠船生成的图像
通过传入jobId和imageNo指定视频的首帧,适用于先用图像生成接口创建图片、再将其转化为视频的工作流:
data_with_image = {
"jobId": "existing_job_id",
"imageNo": 0,
"prompt": "Make this image move with gentle animation",
"callback": "https://your-callback-url.com"
}
response = requests.post(
"https://ali.youchuan.cn/v1/tob/video-diffusion",
headers=headers,
json=data_with_image
)方式二:使用自定义图像
在prompt字段中通过图片URL指定视频首帧:
data = {
"prompt": "https://example.com/start-image.jpg A beautiful sunset over the ocean with gentle waves",
"callback": "https://your-callback-url.com"
}
response = requests.post(
"https://ali.youchuan.cn/v1/tob/video-diffusion",
headers=headers,
json=data
)5.3 视频延长与高清
生成的视频可以通过延长接口每次增加4秒,最多延长4次(总计21秒)。视频高清接口可将视频提升至1080P分辨率。
- 视频延长:POST /v1/tob/video/extend
- 视频高清:POST /v1/tob/video/upscale
六、参数体系深度解析
悠船的参数体系是控制图像生成质量与风格的核心工具。不同模型版本的参数支持范围有所不同,需要根据实际使用的模型版本选择合适的参数组合。
6.1 v7模型完整参数
v7作为当前默认模型,参数体系最为成熟:
| 参数 | 取值范围 | 默认值 | 说明 |
|---|---|---|---|
| --ar | 正整数比值 | 1:1 | 宽高比 |
| --raw | — | — | 原始模式,禁用默认美化 |
| --tile | — | — | 无缝平铺图案 |
| --chaos | 0-100 | 0 | 结果多样性 |
| --seed | 0-4294967295 | 随机 | 随机种子,用于复现结果 |
| --weird | 0-3000 | 0 | 引入超现实元素 |
| --stylize | 0-1000 | 100 | 艺术风格强度 |
| --quality | 1,2,4 | 1 | 图像细节程度,4为实验模式 |
| --iw | 0-3 | 1 | 图像提示权重 |
| --no | 文本 | — | 否定提示 |
| --draft | — | — | 草图模式,半价快速生成 |
| --turbo | — | — | 极速模式(2倍费用) |
6.2 v8.1模型参数特色
v8.1在继承v7大部分参数的基础上,引入了若干重要变化:
- --hd:原生2K高清渲染参数,无需后期放大即可获得高清图像
- --quality:取值范围简化为1和4,4为高质量模式
- 不支持--draft:v8.1无草图模式
- 不支持--turbo:v8.1不支持极速模式
- 风格系统兼容:完全兼容v7的个性化配置、风格参考和Moodboard
v8.1最值得关注的特性是原生高清模式(--hd)。与传统的"先生成→再放大"流程不同,--hd在生成阶段即以高分辨率渲染,画面质量和细节均优于后期放大。使用方式如下:
data = {
"text": "A beautiful sunset --hd",
"callback": "https://your-callback-url.com"
}
response = requests.post(
"https://ali.youchuan.cn/v1/tob/diffusion",
headers=headers,
json=data
)七、高级功能:精准控制图像生成
除了基础参数之外,悠船还提供了多提示词、图像引用、角色参考、风格参考、万物引用等高级控制能力,让开发者能够对图像生成进行更精细的调控。
7.1 多提示词与权重控制
多提示词功能允许用户将不同概念进行独立控制与组合,实现更精准的图像生成效果。该功能通过双冒号(::)分隔不同提示词,系统会分别处理每个提示词,再将结果进行智能融合。
基本用法:
- 普通提示词:"space ship" → 生成科幻太空船
- 多提示词:"space:: ship" → 分别处理"太空"和"船"的概念,可能生成在太空中航行的船只
权重控制:
在双冒号后直接添加数字表示权重值。例如:
- "space::2 ship":"太空"的重要性是"船"的两倍
- 权重默认值为1
负面提示词:
通过设置负权重,可以排除不希望出现在图像中的元素。例如:
- 有效示例:"still life painting:: fruit::-0.5"(总权重0.5)
- 无效示例:"still life painting:: fruit::-2"(总权重-1,所有权重之和必须为正数)
需要注意的是,多提示词功能暂不支持版本7模型。支持该功能的模型版本包括1、2、3、4、Niji 4、5、Niji 5、6、Niji 6和6.1。
7.2 图像提示词(垫图)
图像提示词让你可以通过在文本提示词中加入图像URL来引导悠船创作。有三种用法:
- 单一图像+文本:选择一张参考图像,添加描述性文本
- 多张图像(无文本):上传两张或更多图像,让悠船专注视觉元素的融合
- 多张图像+文本:将多张图像与描述性文本结合,获得更详细的指导
图像权重参数--iw用于控制图像提示对最终图像的影响程度:
| 模型 | 默认值 | 取值范围 |
|---|---|---|
| v6, v6.1 | 1 | 0-3 |
| v7 | 1 | 0-3 |
| v8.1 | 1 | 0-3 |
| Niji 6 | 1 | 0-3 |
| Niji 7 | 1 | 0-2 |
7.3 角色参考与万物引用
角色参考(--cref):允许在多个图像中重新创建特定角色。通过使用角色图片,悠船可以识别角色的特征(如发色、服装、面部特征等),并在新场景中生成该角色。注意角色参考与版本7不兼容,如果使用v7模型,请改用万物引用功能。
万物引用(--oref):将参考图像中的角色、物体等元素精确地放入新创作的场景中,迁移范围包括人物、动物、物品等任何可识别对象。使用格式:
描述文本 --oref [图片URL]权重调优:
- --ow 1-100:轻度参考,保留灵活性
- --ow 100-400:中度参考
- --ow 400-1000:高度参考,严格遵循参考图
7.4 风格参考(--sref)
风格参考允许用户参考另一张图片的视觉风格。在提示词末尾添加--sref参数,然后粘贴图像URL。最多支持20个风格参考URL。配合--sw(风格参考权重,0-1000,默认100)可以精细控制风格的影响程度。
八、提示词撰写方法论
提示词的质量直接决定生成图像的效果。以下方法论基于悠船官方文档的最佳实践整理。
8.1 语法层面的建议
- 提示词优先于语法结构:悠船的模型已经训练到可以足够理解提示词,即使输入的语法有错误,只要提示词正确,也能够生成图片
- 提示词不宜过长:复杂结构的提示词(如定语从句)可能导致模型生成不准确的图片。建议将指令拆分成逗号分隔的短语
- 使用"形容词+名词"的词序:例如将"头发飞舞于风中"替换为"飞舞的头发"
- 使用精准具体的动词和形容词:例如将"手搭着脸"替换为"双手托着下巴"
8.2 词汇层面的建议
- 名词:悠船可准确识别名词词汇,建议尽量使用名词;名词较多时可用符号隔开
- 介词:悠船对介词的理解有一定欠缺,尤其是对方位理解。建议减少使用介词短语,替换为"形容词+名词"
- 动词:使用动词应精确具体,例如"水滴溅在叶片上"比"水滴落在叶片上"更具动感
- 形容词:应精准具象,避免模糊描述
- 代词:悠船对代词的理解有一定欠缺,尽量不使用代词指代
8.3 内容层面的建议
- 明确表达需求:专注描写你想要的图像,明确告诉它你想要什么,而不是告诉它你不想要什么
- 提示词精准具体:尽量具体地说明图像中需要包含的元素,多使用名词或"形容词+名词"
- 前置重要信息:系统会优先识别和考虑更靠前的词汇信息,将重要信息优先输入
8.4 风格探索技巧
悠船默认风格下即使简短的提示词也能生成美丽的图像,但通过结合艺术媒介、历史时期、地点等概念,可以创造出更有趣和个性化的结果。可以尝试以下方向:
- 选择媒介:油画、蜡笔、印刷机、墨水等
- 穿越时空:不同时代有不同的视觉风格
- 表达情感:使用情感词语赋予角色个性
- 丰富色彩:探索丰富的色彩可能性
- 环境探索:不同的环境可以营造独特的氛围
九、计费规则与成本优化
悠船采用以标准任务为基数的计费方式,其他类型任务的计费是在标准任务的基础上乘以对应的系数。
9.1 计费公式
单条任务价格 = 标准任务单价 × 任务系数 × 速度系数标准任务 = 标准生图1生4,快速模式下的价格为0.6元/次。
9.2 速度系数
| 速度模式 | 系数 | 使用方法 | 备注 |
|---|---|---|---|
| 快速模式 | 1 | --fast | 默认模式 |
| 极速模式 | 2 | --turbo | 2倍费用 |
| 草图模式(v7) | 0.5 | --draft | 半价,仅v7 |
重要说明:草图模式的0.5系数仅适用于版本7;版本8.1的草图模式计费与标准生图任务一致(系数为1,不享受减半)。
9.3 任务系数
| 任务类型 | 系数 | 对应接口 |
|---|---|---|
| 标准生图1生4 | 1.0 | /v1/tob/diffusion |
| 强烈变化/轻微变化 | 1.5 | /v1/tob/variation |
| 创意高清/标准高清 | 2.0/1.5 | /v1/tob/upscale |
| 图生视频(480p) | 4.0 | /v1/tob/video-diffusion |
| 图生视频(720p) | 12.0 | /v1/tob/video-diffusion |
| 视频延长(480p) | 4.0 | /v1/tob/video/extend |
9.4 v8.1特有参数系数
v8.1模型的--hd参数会叠加1.5倍系数。例如:
- v7标准生图:0.6元
- v8.1标准生图+--hd:0.6 × 1 × 1.5 = 0.9元
十、生产级集成最佳实践
将悠船API集成到生产环境时,以下几个方面的考量至关重要。
10.1 凭证安全管理
机构号与授权码是API调用的唯一身份验证凭证,切勿泄露至客户端代码或公共代码仓库中。建议:
- 将凭证存储在环境变量或密钥管理服务中
- 不在前端代码中暴露任何凭证信息
- 定期轮换授权码
10.2 异步回调 vs 轮询
图像生成是异步任务,需要等待处理完成。有两种方式获取结果:
- 回调方式:在请求中传入callback URL,任务完成后服务端主动推送结果。推荐用于生产环境,效率更高
- 轮询方式:主动查询任务状态。适合回调不可达的场景
10.3 错误处理与重试
API调用可能因网络波动、服务繁忙等原因失败。建议实现:
- 指数退避重试策略
- 超时控制(建议设置30秒以上的超时时间)
- 详细的错误日志记录
10.4 模型版本选择策略
- 快速原型验证:使用v7 + --draft模式,成本低、速度快
- 高质量生产图像:使用v8.1 + --hd模式,原生2K高清
- 动漫/东方风格:使用niji系列模型
- 视频生成:使用视频模型,注意480p和720p的成本差异
10.5 成本控制建议
- 优先使用v7的--draft模式进行创意迭代,确认方向后再用v8.1 + --hd生成最终版本
- 视频生成优先考虑480p,仅在需要高清输出时使用720p(成本为3倍)
- 合理使用--seed参数复现结果,避免重复生成
- 监控API调用量,设置预算告警
结语
阿里云悠船AI绘图大模型为企业级AI图像生成提供了一个稳定、功能丰富且文档完善的解决方案。从账号开通到API集成,从基础文生图到多提示词精确控制,从静态图像到动态视频,悠船覆盖了AI视觉创作的全链路。本文涵盖了从入门到生产级集成的完整知识体系,希望能帮助开发者快速上手并将AI创作能力高效落地到自有产品中。
常见问题解答
问:个人账号能否开通悠船AI绘图大模型?
答:不能。悠船AI绘图大模型仅限已完成企业实名认证的阿里云账号开通,个人账号暂不支持。
问:如何获取API调用的凭证?
答:开通服务后,进入云市场买家控制台 > 我的服务 > 详情,即可获取机构号(x-youchuan-app)和授权码(x-youchuan-secret)。
问:v7和v8.1模型应该如何选择?
答:v7是当前默认模型,支持草图模式(--draft,半价)和更丰富的接口(如扩图、区域重绘);v8.1是最新版本,支持原生2K高清(--hd),速度提升约5倍,但部分接口暂不支持。快速迭代用v7的--draft,高质量输出用v8.1的--hd。
问:多提示词功能支持v7模型吗?
答:不支持。多提示词功能暂不支持版本7模型。支持该功能的模型包括1、2、3、4、Niji 4、5、Niji 5、6、Niji 6和6.1。
问:如何控制生成图像的风格?
答:可以通过多种方式控制风格:使用--stylize参数调整艺术风格强度(0-1000);使用--sref风格参考引用其他图像的风格;使用--raw原始模式禁用默认美化;使用--weird参数引入超现实元素。
问:视频生成支持哪些分辨率?费用如何?
答:悠船视频支持480p(默认)和720p两种规格。480p费用系数为4.0,720p费用系数为12.0(为480p的3倍)。通过视频高清接口还可生成1080P视频。



