inputData
更新语音对话配置
内容类型:EVENT
内容说明:更新当前会话的语音对话配置
响应事件:更新语音对话配置成功
内容结构:
mid
string
是
请求唯一标识符,用于追踪每次消息请求和响应的对应关系
uid
string
否
用户唯一标识。注意:请勿重复使用
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体
content.eventType
string
是
固定为 CLIENT_VOICE_CHAT_UPDATE
content.eventData
object
是
语音对话配置项。见表格说明
语音对话配置项
audio
object
否
音频配置
audio.binary
bool
否
二进制音频传输 true 二进制音频(上下行), false base64文本音频(上下行)
audio.input
object
否
输入音频配置
audio.input.codec
string
否
输入音频的编码,支持pcm,opus
audio.input.sampleRate
string
否
输入音频的采样率,支持16000,24000,32000
audio.input.frameSize
string
否
输入opus音频帧的字节数,仅适用多个定长opus拼接的情况
audio.output
object
否
输出音频配置
audio.output.codec
string
否
输出音频的编码,支持pcm,opus,mp3
audio.output.sampleRate
string
否
输出音频的采样率,支持16000,24000,32000
audio.output.enableOpusCbr
bool
否
输出音频为 opus 格式时,控制是否启用 CBR 编码模型(每帧固定字节数):true表示启用 CBR 格式,false表示禁用;默认值:false
audio.output.frameSizeMs
string
否
输出音频的帧时长(单位:ms),PCM 格式数值范围为 [60-120]、OPUS 格式可选值为 10、20、40、60,默认值为:60
audio.timbre
object
否
输出音色配置
audio.timbre.voiceSpeed
float
否
输出音频音色语速,数值范围【0.8-1.2】
audio.timbre.voiceVolume
float
否
输出音频音色音量,数值范围【0.5-10】
chat
object
否
对话配置
chat.roleCode
string
否
对话角色编号
内容示例:
流式上传音频
内容类型:AUDIO
内容说明:流式向服务端提交音频片段
内容结构:
mid
string
是
请求唯一标识符,用于追踪每次消息请求和响应的对应关系
uid
string
否
用户唯一标识。注意:请勿重复使用
contentType
string
是
固定为 AUDIO
content
object
是
音频数据载体。见表格说明
音频数据载体
audioBase64
string
是
音频数据的Base64编码字符串
index
string
是
音频数据序号,由1递增
音频参数规范
pcm
16000(默认)
16bit
单声道,小端序,音频数据时长 (120ms)
opus
16000(默认)
16bit
单声道,OPUS标准音频帧时长(10ms, 20ms, 40ms, 60ms)
内容示例:
发送对话内容
内容类型:TEXT
内容说明:发送文本与智能体对话,提交文本内容后会流式回复文本内容和流式音频
内容结构:
mid
string
是
请求唯一标识符,用于追踪每次消息请求和响应的对应关系
uid
string
否
用户唯一标识。注意:请勿重复使用
contentType
string
是
固定为 TEXT
content
object
是
文本数据载体。见表格说明
文本数据载体
input
string
是
文本字符串
内容示例:
结束音频上传
内容类型:EVENT
内容说明:发送此事件,通知服务端结束音频上传
内容结构:
mid
string
是
请求唯一标识符,用于追踪每次消息请求和响应的对应关系
uid
string
否
用户唯一标识。注意:请勿重复使用
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体
content.eventType
string
是
固定为 CLIENT_AUDIO_FINISH
内容示例:
打断智能体输出
内容类型:EVENT
内容说明:发送此事件,取消智能体正在进行的语音对话;手动模式下打断语音回复需要传入
响应事件:调用智能体打断事件
内容结构:
mid
string
是
请求唯一标识符,用于追踪每次消息请求和响应的对应关系
uid
string
否
用户唯一标识。注意:请勿重复使用
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体
content.eventType
string
是
固定为 CLIENT_INTERRUPT
内容示例:
请求音频合成
内容类型:EVENT
内容说明:提交事件后,主动提交文字用来进行语音合成,提交的信息不会触发智能体,只会流式生成语音合成的音频片段。提交事件的时候如果智能体正在输出语音会被中断输出。
响应事件:增量流式音频
内容结构:
mid
string
是
请求唯一标识符,用于追踪每次消息请求和响应的对应关系
uid
string
否
用户唯一标识。注意:请勿重复使用
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体
content.eventType
string
是
固定为 CLIENT_INPUT_TEXT_TO_SPEECH
content.eventData
object
是
请求数据项。见表格说明
请求数据项
text
string
是
文本信息(会切分且分段生成音频),长度限制 (0, 1000) 字节
内容示例:
心跳发起
内容类型:PING
内容说明:发送PING包维持长链接,建议30秒发送间隔
响应事件:心跳响应
内容结构:
mid
string
是
请求唯一标识符,用于追踪每次消息请求和响应的对应关系
uid
string
否
用户唯一标识。注意:请勿重复使用
contentType
string
是
固定为 PING
内容示例: