ouputData
默认语音对话配置
内容类型:EVENT
内容说明:对话接口成功建立连接,服务端会发送服务端默认语音对话配置
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体。见表格说明
content.eventType
string
是
固定为 CFG_BOT_EVENT
content.eventData
object
是
默认语音配置项。见表格说明
默认语音配置项
timbre
object
是
输出音色配置
timbre.voiceName
string
是
输出音频音色名称
timbre.voiceSpeed
float
是
输出音频音色语速
tts
object
是
输出音频配置
tts.aue
string
是
输出音频的编码,pcm,opus,mp3
tts.bit
int
是
输出音频的位深
tts.channels
int
是
输出音频的通道数
tts.sr
string
是
输出音频的采样率
内容示例:
更新语音对话配置成功
内容类型:EVENT
内容说明:上行数据-更新语音对话配置 更新完成后,通知当前会话语音对话配置
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符,对应上行请求唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体。见表格说明
content.eventType
string
是
固定为 SERVER_VOICE_CHAT_UPDATED
content.eventData
object
是
更新的语音配置项。见表格说明
语音对话配置项
audio
object
否
音频配置
audio.input
object
否
输入音频配置
audio.input.codec
string
否
输入音频的编码,支持pcm,opus
audio.input.sampleRate
string
否
输入音频的采样率,支持16000,24000,32000
audio.output
object
否
输出音频配置
audio.output.codec
string
否
输出音频的编码,支持pcm,opus,mp3
audio.output.sampleRate
string
否
输出音频的采样率,支持16000,24000,32000
audio.timbre
object
否
输出音色配置
audio.timbre.voiceId
string
否
输出音频音色ID
audio.timbre.voiceSpeed
float
否
输出音频音色语速,数值范围【0.8-1.2】
audio.timbre.voiceVolume
float
否
输出音频音色音量,数值范围【0.5-10】
内容示例:
音频识别内容
内容类型:ASR
内容说明:流式语音识别结果
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 ASR
content
object
是
识别结果数据。见表格说明
识别结果数据
text
string
是
识别出的文本内容
textType
string
是
结果类型:IS_FINAL
lang
string
否
语种识别。取值:普通话/英文
内容示例:
智能体对话开始
内容类型:EVENT
内容说明:表示根据流式语音识别结果开启智能体对话
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符,对应上行请求唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体。见表格说明
content.roundId
string
是
消息轮次index
content.eventType
string
是
固定为 CALL_AGENT_START_EVENT
content.eventData
object
是
对话开始数据。见表格说明
对话开始数据
input
string
是
智能体对话输入内容
startTime
string
是
智能体对话开始时间
内容示例:
智能体对话忽略
内容类型:EVENT
内容说明:表示根据流式语音未识别结果不开启智能体对话
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体。见表格说明
content.roundId
string
是
消息轮次index
content.eventType
string
是
固定为 EMPTY_CONTENT
内容示例:
增量文本回复
内容类型:AGENT
内容说明:智能体的增量文本回复
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 AGENT
content
object
是
智能体生成的文本回复内容数据。见表格说明
文本回复内容数据
roundId
string
是
消息轮次index
role
string
是
角色标识:assistant机器人回复
content
string
是
智能体生成的文本内容
reasoningContent
string
是
智能体思考内容
finishReason
string
是
结束原因:stop 正常输出结束 / error 遇到错误 / audit 安全审核过滤
内容示例:
增量文本主动回复
内容类型:ACTIVITY
内容说明:智能体的主动的增量文本回复,在一定时间无对话交互场景触发的智能体主动回复
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 ACTIVITY
content
object
是
智能体主动生成的文本回复内容数据。见表格说明
文本回复内容数据
roundId
string
是
消息轮次index
role
string
是
角色标识:assistant机器人回复
content
string
是
智能体生成的文本内容
reasoningContent
string
是
智能体思考内容
finishReason
string
是
结束原因:stop 正常输出结束 / error 遇到错误 / content_filter 安全审核过滤
内容示例:
增量流式音频字幕
内容类型:EVENT
内容说明:音频对应字幕句子,后续的 增量流式音频 均属于当前字幕,会有多个增量语音音频对应该字幕文字。
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体。见表格说明
content.roundId
string
是
消息轮次index
content.eventType
string
是
固定为 TTS_SENTENCE_START
content.eventData
object
是
字幕数据项。见表格说明
字幕数据项
text
string
是
对应文本字幕
内容示例:
增量流式音频
内容类型:TTS
内容说明:发送语音合成后的流式音频片段
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 TTS
content
object
是
识别结果数据。见表格说明
识别结果数据
roundId
string
否
消息轮次index
audioBase64
string
是
音频数据的Base64编码字符串
audioAue
string
是
音频编码
audioDuration
string
是
音频时长,参考不准确
finish
string
是
是否最后一段音频。取值:true/false
内容示例:
语音音频回复完成
内容类型:EVENT
内容说明:语音音频下行回复完成。
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体。见表格说明
content.roundId
string
是
消息轮次index
content.eventType
string
是
固定为 TTS_COMPLETE
内容示例:
语音当轮对话完成
内容类型:EVENT
内容说明:表示当轮对话完成。
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体。见表格说明
content.roundId
string
是
消息轮次index
content.eventType
string
是
固定为 COMPLETE
内容示例:
调用智能体打断事件
内容类型:EVENT
内容说明:自由对话模式下,客户端收到打断智能体事件之后,需要打断正在播放的TTS音频流;准备播放新的音频流。
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 EVENT
content
object
是
事件数据载体。见表格说明
content.roundId
string
是
消息轮次index
content.eventType
string
是
固定为 CALL_AGENT_INTERRUPTED
content.eventData
object
是
事件消息体
content.eventData.startTime
string
是
事件发生时间
内容示例:
心跳响应
内容类型:PONG
内容说明:响应上行PING包
内容结构:
code
Integer
是
响应状态码,200表示成功,其他值表示错误
msg
string
是
状态描述信息
requestId
string
是
请求唯一标识符
mid
string
是
消息唯一标识符
uid
string
否
用户唯一标识
t
long
是
服务端处理时间戳(毫秒级)
contentType
string
是
固定为 PONG
内容示例: