inputData

更新语音对话配置

字段名称
类型
必选
说明

mid

string

请求唯一标识符,用于追踪每次消息请求和响应的对应关系

uid

string

用户唯一标识。注意:请勿重复使用

contentType

string

固定为 EVENT

content

object

事件数据载体

content.eventType

string

固定为 CLIENT_VOICE_CHAT_UPDATE

content.eventData

object

语音对话配置项。见表格说明

  • 语音对话配置项

字段名称
类型
必选
说明

audio

object

音频配置

audio.binary

bool

二进制音频传输 true 二进制音频(上下行), false base64文本音频(上下行)

audio.input

object

输入音频配置

audio.input.codec

string

输入音频的编码,支持pcm,opus

audio.input.sampleRate

string

输入音频的采样率,支持16000,24000,32000

audio.input.frameSize

string

输入opus音频帧的字节数,仅适用多个定长opus拼接的情况

audio.output

object

输出音频配置

audio.output.codec

string

输出音频的编码,支持pcm,opus,mp3

audio.output.sampleRate

string

输出音频的采样率,支持16000,24000,32000

audio.output.enableOpusCbr

bool

输出音频为 opus 格式时,控制是否启用 CBR 编码模型(每帧固定字节数):true表示启用 CBR 格式,false表示禁用;默认值:false

audio.output.frameSizeMs

string

输出音频的帧时长(单位:ms),PCM 格式数值范围为 [60-120]、OPUS 格式可选值为 10、20、40、60,默认值为:60

audio.timbre

object

输出音色配置

audio.timbre.voiceSpeed

float

输出音频音色语速,数值范围【0.8-1.2】

audio.timbre.voiceVolume

float

输出音频音色音量,数值范围【0.5-10】

chat

object

对话配置

chat.roleCode

string

对话角色编号

  • 内容示例:


流式上传音频

字段名称
类型
必选
说明

mid

string

请求唯一标识符,用于追踪每次消息请求和响应的对应关系

uid

string

用户唯一标识。注意:请勿重复使用

contentType

string

固定为 AUDIO

content

object

音频数据载体。见表格说明

  • 音频数据载体

字段名称
类型
必选
说明

audioBase64

string

音频数据的Base64编码字符串

index

string

音频数据序号,由1递增

  • 音频参数规范

编码类型
采样率
位深
说明

pcm

16000(默认)

16bit

单声道,小端序,音频数据时长 (120ms)

opus

16000(默认)

16bit

单声道,OPUS标准音频帧时长(10ms, 20ms, 40ms, 60ms)

  • 内容示例:


发送对话内容

字段名称
类型
必选
说明

mid

string

请求唯一标识符,用于追踪每次消息请求和响应的对应关系

uid

string

用户唯一标识。注意:请勿重复使用

contentType

string

固定为 TEXT

content

object

文本数据载体。见表格说明

  • 文本数据载体

字段名称
类型
必选
说明

input

string

文本字符串

  • 内容示例:


结束音频上传

  • 内容类型:EVENT

  • 内容说明:发送此事件,通知服务端结束音频上传

  • 内容结构:

字段名称
类型
必选
说明

mid

string

请求唯一标识符,用于追踪每次消息请求和响应的对应关系

uid

string

用户唯一标识。注意:请勿重复使用

contentType

string

固定为 EVENT

content

object

事件数据载体

content.eventType

string

固定为 CLIENT_AUDIO_FINISH

  • 内容示例:


打断智能体输出

  • 内容类型:EVENT

  • 内容说明:发送此事件,取消智能体正在进行的语音对话;手动模式下打断语音回复需要传入

  • 内容结构:

字段名称
类型
必选
说明

mid

string

请求唯一标识符,用于追踪每次消息请求和响应的对应关系

uid

string

用户唯一标识。注意:请勿重复使用

contentType

string

固定为 EVENT

content

object

事件数据载体

content.eventType

string

固定为 CLIENT_INTERRUPT

  • 内容示例:


请求音频合成

  • 内容类型:EVENT

  • 内容说明:提交事件后,主动提交文字用来进行语音合成,提交的信息不会触发智能体,只会流式生成语音合成的音频片段。提交事件的时候如果智能体正在输出语音会被中断输出。

  • 响应事件:增量流式音频

  • 内容结构:

字段名称
类型
必选
说明

mid

string

请求唯一标识符,用于追踪每次消息请求和响应的对应关系

uid

string

用户唯一标识。注意:请勿重复使用

contentType

string

固定为 EVENT

content

object

事件数据载体

content.eventType

string

固定为 CLIENT_INPUT_TEXT_TO_SPEECH

content.eventData

object

请求数据项。见表格说明

  • 请求数据项

字段名称
类型
必选
说明

text

string

文本信息(会切分且分段生成音频),长度限制 (0, 1000) 字节

  • 内容示例:


心跳发起

  • 内容类型:PING

  • 内容说明:发送PING包维持长链接,建议30秒发送间隔

  • 响应事件:心跳响应

  • 内容结构:

字段名称
类型
必选
说明

mid

string

请求唯一标识符,用于追踪每次消息请求和响应的对应关系

uid

string

用户唯一标识。注意:请勿重复使用

contentType

string

固定为 PING

  • 内容示例: