inputData

更新语音对话配置

内容类型：EVENT
内容说明：更新当前会话的语音对话配置
响应事件：更新语音对话配置成功
内容结构：

字段名称

类型

必选

说明

mid

string

是

请求唯一标识符，用于追踪每次消息请求和响应的对应关系

uid

string

否

用户唯一标识。注意：请勿重复使用

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体

content.eventType

string

是

固定为 CLIENT_VOICE_CHAT_UPDATE

content.eventData

object

是

语音对话配置项。见表格说明

语音对话配置项

字段名称

类型

必选

说明

audio

object

否

音频配置

audio.binary

bool

否

二进制音频传输 true 二进制音频（上下行）, false base64文本音频（上下行）

audio.input

object

否

输入音频配置

audio.input.codec

string

否

输入音频的编码，支持pcm，opus

audio.input.sampleRate

string

否

输入音频的采样率，支持16000，24000，32000

audio.input.frameSize

string

否

输入opus音频帧的字节数，仅适用多个定长opus拼接的情况

audio.output

object

否

输出音频配置

audio.output.codec

string

否

输出音频的编码，支持pcm，opus，mp3

audio.output.sampleRate

string

否

输出音频的采样率，支持16000，24000，32000

audio.output.enableOpusCbr

bool

否

输出音频为 opus 格式时，控制是否启用 CBR 编码模型（每帧固定字节数）：true表示启用 CBR 格式，false表示禁用；默认值：false

audio.output.frameSizeMs

string

否

输出音频的帧时长（单位：ms），PCM 格式数值范围为 [60-120]、OPUS 格式可选值为 10、20、40、60，默认值为：60

audio.timbre

object

否

输出音色配置

audio.timbre.voiceSpeed

float

否

输出音频音色语速，数值范围【0.8-1.2】

audio.timbre.voiceVolume

float

否

输出音频音色音量，数值范围【0.5-10】

chat

object

否

对话配置

chat.roleCode

string

否

对话角色编号

内容示例：

示例

{
  "mid": "24279824-8def-48c6-8d1c-ea8ec3aa50ac",
  "contentType": "EVENT",
  "uid": "终端用户id",
  "content": {
    "eventType": "CLIENT_VOICE_CHAT_UPDATE",
    "eventData": {
      "audio": {
        "output": {
          "codec": "pcm"
        }
      }
    }
  }
}

流式上传音频

内容类型：AUDIO
内容说明：流式向服务端提交音频片段
响应事件：音频识别内容、智能体对话开始、智能体对话忽略
内容结构：

字段名称

类型

必选

说明

mid

string

是

请求唯一标识符，用于追踪每次消息请求和响应的对应关系

uid

string

否

用户唯一标识。注意：请勿重复使用

contentType

string

是

固定为 AUDIO

content

object

是

音频数据载体。见表格说明

音频数据载体

字段名称

类型

必选

说明

audioBase64

string

是

音频数据的Base64编码字符串

index

string

是

音频数据序号，由1递增

音频参数规范

编码类型

采样率

位深

说明

pcm

16000（默认）

16bit

单声道，小端序，音频数据时长（120ms）

opus

16000（默认）

16bit

单声道，OPUS标准音频帧时长（10ms, 20ms, 40ms, 60ms）

内容示例：

示例

{
  "mid": "f70e8955-8b39-4ae8-bba1-2bea4aa6c50b",
  "contentType": "AUDIO",
  "uid": "用户id",
  "content": {
    "audioBase64": "PwAVAOv/qP9i/yP/Df8O/wP/Cv8X/wr/8v7X/....",
    "index": 1
  }
}

发送对话内容

内容类型：TEXT
内容说明：发送文本与智能体对话，提交文本内容后会流式回复文本内容和流式音频
响应事件：增量流式音频字幕、增量流式音频
内容结构：

字段名称

类型

必选

说明

mid

string

是

请求唯一标识符，用于追踪每次消息请求和响应的对应关系

uid

string

否

用户唯一标识。注意：请勿重复使用

contentType

string

是

固定为 TEXT

content

object

是

文本数据载体。见表格说明

文本数据载体

字段名称

类型

必选

说明

input

string

是

文本字符串

内容示例：

示例

{
  "mid": "f70e8955-8b39-4ae8-bba1-2bea4aa6c50b",
  "contentType": "TEXT",
  "uid": "用户id",
  "content": {
    "input": "讲个故事吧"
  }
}

结束音频上传

内容类型：EVENT
内容说明：发送此事件，通知服务端结束音频上传
内容结构：

字段名称

类型

必选

说明

mid

string

是

请求唯一标识符，用于追踪每次消息请求和响应的对应关系

uid

string

否

用户唯一标识。注意：请勿重复使用

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体

content.eventType

string

是

固定为 CLIENT_AUDIO_FINISH

内容示例：

示例

{
  "mid": "24279824-8def-48c6-8d1c-ea8ec3aa50ac",
  "contentType": "EVENT",
  "uid": "终端用户id",
  "content": {
    "eventType": "CLIENT_AUDIO_FINISH"
  }
}

打断智能体输出

内容类型：EVENT
内容说明：发送此事件，取消智能体正在进行的语音对话；手动模式下打断语音回复需要传入
响应事件：调用智能体打断事件
内容结构：

字段名称

类型

必选

说明

mid

string

是

请求唯一标识符，用于追踪每次消息请求和响应的对应关系

uid

string

否

用户唯一标识。注意：请勿重复使用

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体

content.eventType

string

是

固定为 CLIENT_INTERRUPT

内容示例：

示例

{
  "mid": "24279824-8def-48c6-8d1c-ea8ec3aa50ac",
  "contentType": "EVENT",
  "uid": "终端用户id",
  "content": {
    "eventType": "CLIENT_INTERRUPT"
  }
}

请求音频合成

内容类型：EVENT
内容说明：提交事件后，主动提交文字用来进行语音合成，提交的信息不会触发智能体，只会流式生成语音合成的音频片段。提交事件的时候如果智能体正在输出语音会被中断输出。
响应事件：增量流式音频
内容结构：

字段名称

类型

必选

说明

mid

string

是

请求唯一标识符，用于追踪每次消息请求和响应的对应关系

uid

string

否

用户唯一标识。注意：请勿重复使用

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体

content.eventType

string

是

固定为 CLIENT_INPUT_TEXT_TO_SPEECH

content.eventData

object

是

请求数据项。见表格说明

请求数据项

字段名称

类型

必选

说明

text

string

是

文本信息（会切分且分段生成音频），长度限制 (0, 1000) 字节

内容示例：

示例

{
  "mid": "f70e8955-8b39-4ae8-bba1-2bea4aa6c50b",
  "contentType": "EVENT",
  "uid": "用户id",
  "content": {
    "eventType": "CLIENT_INPUT_TEXT_TO_SPEECH",
    "eventData": {
      "text": "需要合成的文本"
    }
  }
}

心跳发起

内容类型：PING
内容说明：发送PING包维持长链接，建议30秒发送间隔
响应事件：心跳响应
内容结构：

字段名称

类型

必选

说明

mid

string

是

请求唯一标识符，用于追踪每次消息请求和响应的对应关系

uid

string

否

用户唯一标识。注意：请勿重复使用

contentType

string

是

固定为 PING

内容示例：

示例

{
  "mid": "f70e8955-8b39-4ae8-bba1-2bea4aa6c50b",
  "contentType": "PING",
  "uid": "用户id"
}

PreviousvoiceChat NextouputData

Good night

hashtag更新语音对话配置

hashtag流式上传音频

hashtag发送对话内容

hashtag结束音频上传

hashtag打断智能体输出

hashtag请求音频合成

hashtag心跳发起

更新语音对话配置

流式上传音频

发送对话内容

结束音频上传

打断智能体输出

请求音频合成

心跳发起