ouputData

默认语音对话配置

内容类型：EVENT
内容说明：对话接口成功建立连接，服务端会发送服务端默认语音对话配置
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体。见表格说明

content.eventType

string

是

固定为 CFG_BOT_EVENT

content.eventData

object

是

默认语音配置项。见表格说明

默认语音配置项

字段名称

类型

必选

说明

timbre

object

是

输出音色配置

timbre.voiceName

string

是

输出音频音色名称

timbre.voiceSpeed

float

是

输出音频音色语速

tts

object

是

输出音频配置

tts.aue

string

是

输出音频的编码，pcm，opus，mp3

tts.bit

int

是

输出音频的位深

tts.channels

int

是

输出音频的通道数

tts.sr

string

是

输出音频的采样率

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7",
  "mid": null,
  "contentType": "EVENT",
  "content": {
    "roundId": "",
    "eventType": "CFG_BOT_EVENT",
    "eventData": {
      "timbre": {
        "voiceName": "小犀",
        "voiceSpeed": 1.0
      },
      "tts": {
        "aue": "pcm",
        "bit": 16,
        "channels": 1,
        "sr": "16000"
      },
      "deviceModel": "UNKNOWN",
      "deviceId": "UNKNOWN"
    }
  },
  "t": 1749117478297
}

更新语音对话配置成功

内容类型：EVENT
内容说明：上行数据-更新语音对话配置 更新完成后，通知当前会话语音对话配置
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符，对应上行请求唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体。见表格说明

content.eventType

string

是

固定为 SERVER_VOICE_CHAT_UPDATED

content.eventData

object

是

更新的语音配置项。见表格说明

语音对话配置项

字段名称

类型

必选

说明

audio

object

否

音频配置

audio.input

object

否

输入音频配置

audio.input.codec

string

否

输入音频的编码，支持pcm，opus

audio.input.sampleRate

string

否

输入音频的采样率，支持16000，24000，32000

audio.output

object

否

输出音频配置

audio.output.codec

string

否

输出音频的编码，支持pcm，opus，mp3

audio.output.sampleRate

string

否

输出音频的采样率，支持16000，24000，32000

audio.timbre

object

否

输出音色配置

audio.timbre.voiceId

string

否

输出音频音色ID

audio.timbre.voiceSpeed

float

否

输出音频音色语速，数值范围【0.8-1.2】

audio.timbre.voiceVolume

float

否

输出音频音色音量，数值范围【0.5-10】

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "222b0306-4e95-4163-9683-94f8c29609bf",
  "mid": "197211f7-2587-4d72-8504-6268616533ec",
  "contentType": "EVENT",
  "content": {
    "eventType": "SERVER_VOICE_CHAT_UPDATED",
    "eventData": {
      "audio": {
        "output": {
          "codec": "pcm"
        }
      }
    }
  },
  "t": 1752724083510
}

音频识别内容

内容类型：ASR
内容说明：流式语音识别结果
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 ASR

content

object

是

识别结果数据。见表格说明

识别结果数据

字段名称

类型

必选

说明

text

string

是

识别出的文本内容

textType

string

是

结果类型：IS_FINAL

lang

string

否

语种识别。取值：普通话/英文

内容示例：

{
  "code": 200,
  "msg": "ASR success",
  "requestId": "08ddd338-fd5b-4572-b03a-43974dc145db",
  "contentType": "ASR",
  "uid": "终端用户id",
  "mid": "c673b518375a4c23aeab8cb8458994d6",
  "content": {
    "text": "语音测试，给我个结果",
    "textType": "IS_FINAL",
    "lang": "普通话"
  },
  "t": 1745507675867
}

智能体对话开始

内容类型：EVENT
内容说明：表示根据流式语音识别结果开启智能体对话
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符，对应上行请求唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体。见表格说明

content.roundId

string

是

消息轮次index

content.eventType

string

是

固定为 CALL_AGENT_START_EVENT

content.eventData

object

是

对话开始数据。见表格说明

对话开始数据

字段名称

类型

必选

说明

input

string

是

智能体对话输入内容

startTime

string

是

智能体对话开始时间

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "08ddd338-fd5b-4572-b03a-43974dc145db",
  "contentType": "EVENT",
  "uid": "终端用户id",
  "mid": "c673b518375a4c23aeab8cb8458994d6",
  "content": {
    "roundId": "b1c9fc68-01c4-48b4-ba79-a8440dc9a9fa_222726_1",
    "eventType": "CALL_AGENT_START_EVENT",
    "eventData": {
      "input": "语音测试，给我个结果",
      "startTime": 1745507675867
    },
    "t": 1745507675867
  }
}

智能体对话忽略

内容类型：EVENT
内容说明：表示根据流式语音未识别结果不开启智能体对话
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体。见表格说明

content.roundId

string

是

消息轮次index

content.eventType

string

是

固定为 EMPTY_CONTENT

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7",
  "mid": null,
  "contentType": "EVENT",
  "content": {
    "roundId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_1",
    "eventType": "EMPTY_CONTENT",
    "eventData": {
      "startTime": 1749117482960
    }
  },
  "t": 1749117482960
}

增量文本回复

内容类型：AGENT
内容说明：智能体的增量文本回复
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 AGENT

content

object

是

智能体生成的文本回复内容数据。见表格说明

文本回复内容数据

字段名称

类型

必选

说明

roundId

string

是

消息轮次index

role

string

是

角色标识：assistant机器人回复

content

string

是

智能体生成的文本内容

reasoningContent

string

是

智能体思考内容

finishReason

string

是

结束原因：stop 正常输出结束 / error 遇到错误 / audit 安全审核过滤

内容示例：

{
  "code": 200,
  "msg": "LLM success",
  "requestId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7",
  "mid": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
  "contentType": "AGENT",
  "content": {
    "roundId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
    "role": "assistant",
    "content": "嘿！你好呀，",
    "reasoningContent": "",
    "finishReason": ""
  },
  "t": 1749117487494
}

增量文本主动回复

内容类型：ACTIVITY
内容说明：智能体的主动的增量文本回复，在一定时间无对话交互场景触发的智能体主动回复
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 ACTIVITY

content

object

是

智能体主动生成的文本回复内容数据。见表格说明

文本回复内容数据

字段名称

类型

必选

说明

roundId

string

是

消息轮次index

role

string

是

角色标识：assistant机器人回复

content

string

是

智能体生成的文本内容

reasoningContent

string

是

智能体思考内容

finishReason

string

是

结束原因：stop 正常输出结束 / error 遇到错误 / content_filter 安全审核过滤

内容示例：

{
  "code": 200,
  "msg": "LLM success",
  "requestId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7",
  "mid": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
  "contentType": "ACTIVITY",
  "content": {
    "roundId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
    "role": "assistant",
    "content": "嘿！你好呀，",
    "reasoningContent": "",
    "finishReason": ""
  },
  "t": 1749117487494
}

增量流式音频字幕

内容类型：EVENT
内容说明：音频对应字幕句子，后续的 增量流式音频 均属于当前字幕，会有多个增量语音音频对应该字幕文字。
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体。见表格说明

content.roundId

string

是

消息轮次index

content.eventType

string

是

固定为 TTS_SENTENCE_START

content.eventData

object

是

字幕数据项。见表格说明

字幕数据项

字段名称

类型

必选

说明

text

string

是

对应文本字幕

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "140adc55-8d74-4eae-80d1-1425c36c8541",
  "mid": "140adc55-8d74-4eae-80d1-1425c36c8541_1",
  "contentType": "EVENT",
  "content": {
    "roundId": "140adc55-8d74-4eae-80d1-1425c36c8541_1",
    "eventType": "TTS_SENTENCE_START",
    "eventData": {
      "time": 1748525295575,
      "text": "音频对应的文本内容"
    }
  },
  "t": 1748525295575
}

增量流式音频

内容类型：TTS
内容说明：发送语音合成后的流式音频片段
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 TTS

content

object

是

识别结果数据。见表格说明

识别结果数据

字段名称

类型

必选

说明

roundId

string

否

消息轮次index

audioBase64

string

是

音频数据的Base64编码字符串

audioAue

string

是

音频编码

audioDuration

string

是

音频时长，参考不准确

finish

string

是

是否最后一段音频。取值：true/false

内容示例：

{
  "code": 200,
  "msg": "TTS success",
  "requestId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7",
  "mid": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
  "contentType": "TTS",
  "content": {
    "roundId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
    "audioBase64": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA...",
    "audioAue": "mp3",
    "audioDuration": 2000,
    "finish": false
  },
  "t": 1749117488653
}

语音音频回复完成

内容类型：EVENT
内容说明：语音音频下行回复完成。
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体。见表格说明

content.roundId

string

是

消息轮次index

content.eventType

string

是

固定为 TTS_COMPLETE

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "551cc928-a9bb-464e-9ef0-aa7366b170a9",
  "mid": "551cc928-a9bb-464e-9ef0-aa7366b170a9_211532_1",
  "contentType": "EVENT",
  "content": {
    "roundId": "551cc928-a9bb-464e-9ef0-aa7366b170a9_211532_1",
    "eventType": "TTS_COMPLETE",
    "eventData": {
      "time": 1752758135335
    }
  },
  "t": 1752758135335
}

语音当轮对话完成

内容类型：EVENT
内容说明：表示当轮对话完成。
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体。见表格说明

content.roundId

string

是

消息轮次index

content.eventType

string

是

固定为 COMPLETE

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7",
  "mid": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
  "contentType": "EVENT",
  "content": {
    "roundId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
    "eventType": "COMPLETE",
    "eventData": {
      "time": 1749117488694
    }
  },
  "t": 1749117488694
}

调用智能体打断事件

内容类型：EVENT
内容说明：自由对话模式下，客户端收到打断智能体事件之后，需要打断正在播放的TTS音频流；准备播放新的音频流。
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 EVENT

content

object

是

事件数据载体。见表格说明

content.roundId

string

是

消息轮次index

content.eventType

string

是

固定为 CALL_AGENT_INTERRUPTED

content.eventData

object

是

事件消息体

content.eventData.startTime

string

是

事件发生时间

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "XXXX",
  "mid": "XXX",
  "contentType": "EVENT",
  "content": {
    "roundId": "XXX",
    "eventType": "CALL_AGENT_INTERRUPTED",
    "eventData": {
      "startTime": 1763968984181
    }
  },
  "t": 1763968984181
}

心跳响应

内容类型：PONG
内容说明：响应上行PING包
内容结构：

字段名称

类型

必选

说明

code

Integer

是

响应状态码，200表示成功，其他值表示错误

msg

string

是

状态描述信息

requestId

string

是

请求唯一标识符

mid

string

是

消息唯一标识符

uid

string

否

用户唯一标识

long

是

服务端处理时间戳（毫秒级）

contentType

string

是

固定为 PONG

内容示例：

{
  "code": 200,
  "msg": "Event success",
  "requestId": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7",
  "mid": "a4595acb-de6c-4ac9-92b2-8fa59a7f91f7_2",
  "contentType": "PONG",
  "t": 1749117488694
}

PreviousinputData NextvoiceConsult

Good night

hashtag默认语音对话配置

hashtag更新语音对话配置成功

hashtag音频识别内容

hashtag智能体对话开始

hashtag智能体对话忽略

hashtag增量文本回复

hashtag增量文本主动回复

hashtag增量流式音频字幕

hashtag增量流式音频

hashtag语音音频回复完成

hashtag语音当轮对话完成

hashtag调用智能体打断事件

hashtag心跳响应

默认语音对话配置

更新语音对话配置成功

音频识别内容

智能体对话开始

智能体对话忽略

增量文本回复

增量文本主动回复

增量流式音频字幕

增量流式音频

语音音频回复完成

语音当轮对话完成

调用智能体打断事件

心跳响应