腾讯云智能数智人声音驱动指令_AI解决方案_同尘科技

腾讯云智能数智人 1年前 (2023-10-17) 浏览 61

创建长链接通道后,可以通过websocket长连接发送音频驱动数智人。

请求参数

参数名称 类型 必选 描述
ReqId String 单次驱动的唯一标识。每一段音频指定一个 uuid 值。
SessionId String 会话唯一标识。
Command String SEND_AUDIO,发送音频。
Data Data 数据对象

Data

名称 类型 必选 描述
Audio string 音频原始数据的 byte 数组,经 Base64 编码后的字符串。只支持:格式-PCM,采样率-16kHz,采样位深-16bits,声道-单声道
Seq int 音频片包序号,序号必须从1开始
IsFinal bool 默认值 false



注意:1. 如果是麦克风实时收音发送,每录制160ms(5120B)的数据即可发出,中间不需要间隔等待;如果是读取离线音频文件发送,片包大小为160ms(5120B),片包发送间隔为120ms。2. 最后一个片包大小按实际发送(需小于160ms)。3. 当数据包发送完毕后,必须再发送一个IsFinal=true的空数据包(Audio字段填空串)结束当次音频驱动使数字人回到静默状态。4. 发送音频实时率要介于[0.75,1],小于0.75会触发限速,大于1会导致画面卡顿。比如160ms音频片包大小,发送间隔不能低于120ms,不能高于160ms。

请求示例

{    "Header": {},    "Payload": {        "ReqId": "d7aa08da33dd4a662ad5be508c5b77cf",        "SessionId": "m123adfafvbadsafd",        "Command": "SEND_AUDIO",        "Data": {            "Audio": "声音二进制数据编码Base64后的值",            "Seq": 0,            "IsFinal": false        }    }}



对解决方案有疑惑?想了解解决方案收费? 联系解决方案专家

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心,购买腾讯云享受折上折,更有现金返利:同意关联,立享优惠

阿里云解决方案也看看?: 点击对比阿里云的解决方案

- 0人点赞 -

发表点评 (0条)

not found

暂无评论,你要说点什么吗?