MiMo TTS 2.5

请求地址：https://openapi.dwo.cc/api/xm_tts

请求方式：get

请求类型：none

概述：MiMo TTS V2.5 是小米推出的语音合成服务，支持将文本转换为自然流畅的语音。

预置音色列表

MiMo-V2.5-TTS 模型提供 9 种精品预置音色，开箱即用：

音色名	Voice ID	语言	性别
MiMo-默认	`mimo_default`	自动	-
冰糖	`冰糖`	中文	女性
茉莉	`茉莉`	中文	女性
苏打	`苏打`	中文	男性
白桦	`白桦`	中文	男性
Mia	`Mia`	英文	女性
Chloe	`Chloe`	英文	女性
Milo	`Milo`	英文	男性
Dean	`Dean`	英文	男性

注意：mimo_default 会根据部署集群自动选择默认音色（中国集群默认为冰糖，其他集群默认为 Mia）

请求示例

基础调用（无风格控制）

curl --location --request POST 'https://api.xiaomimimo.com/v1/chat/completions' \
--header "api-key: $MIMO_API_KEY" \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "mimo-v2.5-tts",
    "messages": [
        {
            "role": "assistant",
            "content": "你好，这是 MiMo TTS 的语音合成测试。"
        }
    ],
    "audio": {
        "format": "wav",
        "voice": "冰糖"
    }
}'

带自然语言风格控制

curl --location --request POST 'https://api.xiaomimimo.com/v1/chat/completions' \
--header "api-key: $MIMO_API_KEY" \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "mimo-v2.5-tts",
    "messages": [
        {
            "role": "user",
            "content": "用轻快上扬的语调，语速稍快，带着查到成绩后压抑不住的激动与小骄傲，声音明亮有活力。"
        },
        {
            "role": "assistant",
            "content": "老板老板，告诉你个好消息！我考试通过了，还拿了优秀！"
        }
    ],
    "audio": {
        "format": "wav",
        "voice": "茉莉"
    }
}'

带音频标签控制

curl --location --request POST 'https://api.xiaomimimo.com/v1/chat/completions' \
--header "api-key: $MIMO_API_KEY" \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "mimo-v2.5-tts",
    "messages": [
        {
            "role": "assistant",
            "content": "<speak><prosody rate=\"slow\">这是一段慢速语音</prosody><break time=\"500ms\"/>停顿后的内容。</speak>"
        }
    ],
    "audio": {
        "format": "wav",
        "voice": "苏打"
    }
}'

响应格式

成功响应

{
  "id": "chatcmpl-xxx",
  "object": "chat.completion",
  "created": 1234567890,
  "model": "mimo-v2.5-tts",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "audio": {
          "data": "base64编码的音频数据...",
          "format": "wav",
          "duration": 3.5,
          "sample_rate": 24000
        }
      },
      "finish_reason": "stop"
    }
  ]
}

风格控制详解

自然语言控制（user 消息）

通过自然语言描述语音风格，支持：

多风格切换：播报 → 低语 → 嘶吼
多情绪混合：压抑的愤怒、带着哽咽的笑意、温柔但疲惫
多粒度控制：段落级 → 句子级 → 词级 → 字粒度

示例指令：

用轻快上扬的语调向领导报喜，语速稍快，带着查到成绩后压抑不住的激动与小骄傲，声音明亮有活力。

导演模式（角色+场景+指导）：

【角色】百年门阀岑家的现任大当家，被塑造成一尊完美无瑕、绝情断欲的家族图腾。

【场景】在祠堂的阴影里，看着那个不顾一切来找她、企图带她私奔的男人。

【指导】冰冷、慵懒却极具威压的低音御姐。发声通道非常松弛，语速缓慢，每个字都像是从高处落下。

音频标签控制（assistant 消息）

在目标文本中添加 SSML 风格标签：

标签	功能	示例
`<break time="500ms"/>`	停顿	`<break time="1s"/>`
`<prosody rate="slow">`	语速	`rate="slow"/"fast"/"medium"`
`<prosody pitch="high">`	音调	`pitch="high"/"low"/"medium"`
`<prosody volume="loud">`	音量	`volume="loud"/"soft"/"medium"`
`<emphasis level="strong">`	强调	`level="strong"/"moderate"/"none"`

标签使用示例：

<speak>
  <prosody rate="fast" pitch="high">
    这是快速高音的语音
    <break time="500ms"/>
    <emphasis level="strong">重点强调</emphasis>
  </prosody>
</speak>

注意事项

目标文本位置：必须放在 role: assistant 的消息中
自然语言控制：仅在 mimo-v2.5-tts 模式下可用
音频标签控制：所有模式都支持
唱歌模式：仅 mimo-v2.5-tts 模式支持
流式输出：格式需指定为 pcm16，目前为兼容模式

秘钥KEY传参

参数名	参数类型	参数示例	参数说明
api-key	string	sk-xxx...	支持通过：headers/query/body(x-www)

Query参数

参数名	必填	类型	说明	示例值
text	是	string	要合成的文本内容（放在 assistant 消息中）	你好，这是 MiMo TTS V2.5 的语音合成测试。
model	否	string	模型类型：mimo-v2.5-tts / mimo-v2.5-tts-voicedesign / mimo-v2.5-tts-voiceclone	mimo-v2.5-tts
voice	否	string	预置音色：mimo_default / 冰糖 / 茉莉 / 苏打 / 白桦 / Mia / Chloe / Milo / Dean	mimo_default
format	否	string	音频格式：wav / mp3 / pcm16	wav
style_control	否	string	自然语言风格控制（放在 user 消息中）	用轻快上扬的语调...
audio_tags	否	string	音频标签控制（放在 assistant 消息前缀）	<speak><prosody rate='fast'>
voice_description	否	string	VoiceDesign 音色描述	温柔知性的女声...
voice_audio_url	否	string	VoiceClone 音频样本 URL	https://example.com/voice.mp3
user_message	否	string	额外用户指令（user 消息补充）	角色场景描述...
stream	否	boolean	是否流式输出：true / false（仅支持 pcm16）	false
return_mode	否	string	返回模式：json / direct	json

响应结果结构

名称	类型	说明
code	integer	200 表示成功
message	string	状态描述：Success / 错误信息
data	object	包含字段：audio_url, format, voice, text, duration, sample_rate

其他两种模式（简介）

VoiceDesign 模式

通过文本描述设计自定义音色，无需音频样本。

{
  "model": "mimo-v2.5-tts-voicedesign",
  "messages": [
    {
      "role": "user",
      "content": "温柔知性的女声，像电台主持人"
    },
    {
      "role": "assistant",
      "content": "要合成的文本"
    }
  ],
  "audio": {
    "format": "wav"
  }
}

VoiceClone 模式

基于音频样本复刻任意音色。

{
  "model": "mimo-v2.5-tts-voiceclone",
  "messages": [
    {
      "role": "assistant",
      "content": "要合成的文本"
    }
  ],
  "audio": {
    "format": "wav",
    "voice": "https://example.com/sample.mp3"
  }
}

Query

请根据API文档填写参数，二选一参数组只能启用其中一个

启用	参数名	参数值	数据类型	参数说明	操作

Body

Body 类型说明

none：不发送任何Body数据，适用于GET请求或不需要Body的API

from-data：使用multipart/form-data格式发送数据，适用于上传文件或包含多种数据类型的请求

x-www-form-urlencoded：使用application/x-www-form-urlencoded格式发送数据，适用于简单的键值对数据

json：使用application/json格式发送数据，适用于复杂数据结构

xml：使用application/xml格式发送数据，适用于XML格式的API

raw：发送原始文本数据，可自定义Content-Type

请根据API要求选择合适的Body类型，并在下方输入对应格式的数据

接口响应

等待发起...

响应码	说明
200	请求成功
203	秘钥错误或不存在
204	服务器错误
211	接口不存在
212	当前接口已下架
213	当前接口正处于审核期
214	API本地文件不存在，请联系管理员检查
215	管理员设置当前接口必须携带ckey请求！
216	付费接口请携带ckey请求！
217	ckey不存在！
218	当前ckey无权限调用此接口，请将此接口添加到ckey调用能力中后重试！
219	访问频率超过限制！请稍后重试！
220	本地API逻辑错误！请联系管理员检查！
221	状态码与管理员配置的状态码不一致，请联系管理员！
222	禁止访问！请联系管理员 (已被加入黑名单)
223	积分不足！请充值后重试
224	余额不足！请充值后重试
225	您已设置仅白名单ip访问！请将当前ip添加到白名单中