腾讯云智能数智人声音复刻录制指引_AI解决方案_同尘科技
一、定制素材自检项
声音复刻需提交一段100句文本的音频,提交前请务必逐条检查以下自检项:1. 无复刻人外的其他人声录入。2. 音频音频收音音量适中,无明显混响、底噪,及其他噪声。3. 使用中文,普通话录制;文本有一定丰富性,不能存在大量的语句重复。音频格式要求:1. 所有音频需转化为 wav 格式,并压缩成 zip 包提交。2. 直接选中所有音频文件直接压缩为 zip 包(不可新建文件夹后压缩),压缩包不超过1G。3. 每条音频采样率须是24K及以上,单条音频长度不超过1小时。4. 音频命名无空格或者特殊字符。
二、音频录制指引(视频版)
三、音频录制指引(文字版)
录制内容
按停顿-读-停顿的循环过程,依次朗读100句文本并生成音频。录制文本:可自行选择自己领域熟悉的文本,也可参照附件参考文本,语句越多训练效果越好。文本要求:中文汉字文本;单句子最长不超过50字,平均句子控制在20字左右。音频个数:可一整段或分为几段音频均可,最多不超过10个。音频格式:录制时推荐无损 WAV 格式(具体格式不限制),不低于24k采样率。
注意事项
环境要安静无杂音,建议麦克风有防风罩且与嘴的距离在10cm内,音量保持适中;尽量避免在光滑墙面、地板房间录制,如大面积玻璃墙面或大理石地板房间,以避免引入混响;提前熟悉朗读文本,避免录制断断续续;注意尽量不要喷麦;每个句子结束自然停顿;句子中按照文本正常表达进行自然停顿;按照本身说话的风格,有韵律的朗读;吐字清晰,保证台词读音正确;除了讲话之外,不要做其余动作,避免多余声音(如衣服摩擦等声音、吞咽声)。注意:定制音频的效果和原视音频的质量息息相关,若音频质量好,最终的音色定制效果也越好;音频质量差,最终定制效果也会差。如:原音频中包含噪声,最终定制的效果也将包含噪声。
典型问题
爆音避免出现爆音,通常离麦克风过近,麦克风没有防喷麦海绵,或录音语音音量过大会出现爆音。抿嘴音,口水音、喘息及喷麦声避免录音过程中过多闭口张口或吞咽导致的抿嘴音、口水音减少较明显的喘息声,喷麦声。噪声及混响避免麦克风离嘴部过远,避免在有明显背景噪声的环境录音,如有其他背景人声,空调声,背景音乐等;避免引入混响,通常在较多玻璃光滑墙壁房间会有较强混响。频谱缺失避免采用自带增强或降噪等处理模块的录音软件,避免导致对原始语音的损伤及频谱频段缺失的录音软件,避免导致对原始语音的损伤及频谱频段缺失。
对解决方案有疑惑?想了解解决方案收费? 联系解决方案专家
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心,购买腾讯云享受折上折,更有现金返利:同意关联,立享优惠
阿里云解决方案也看看?: 点击对比阿里云的解决方案
暂无评论,你要说点什么吗?