豆包语音大模型优化小说演播,大咖音色媲美真人

2025-03-04 10:43:15     来源:

近日,字节跳动的豆包语音大模型在小说演播场景取得突破,无需对话旁白、情感、角色等额外标签,也能实现高表现力、高自然度、高语义理解的小说演播效果,声音合成质量媲美真人。

据了解,市面上的语音模型想要媲美一流主播细腻的演播效果,要做好旁白和角色的区分演绎、角色情感的精确表达、不同角色的区分度等。传统的小说TTS合成链路,需要提前给内容打标签。豆包语音大模型基于Seed-TTS架构优化,则可以端到端直接合成出具有韵律、情感等细节的声音。

图:传统语音模型和豆包语音大模型合成链路的区别

Seed-TTS是字节跳动于2024年6月发布的语音生成基座模型。为提升语音表现力和长文本的理解能力,豆包语音大模型团队在Seed-TTS的数据、特征、上下文等结构上做了改进。比如数据上,音频做章节级别处理,保证了长文下的语音一致性和连贯性;语音韵律和准确性上,融合原始文本和前端信息,保证语气词、副语言、强调、弱读等内容自然流畅;额外加入的上下文理解能力,使得模型能够感知更大范围的语义信息,旁白和角色音表现更精准到位。

优化后的豆包语音模型,能端到端演绎更多元的情感,在人物不同情绪上表现自然,而且可实现连续多轮对话,保证角色区分鲜明。

豆包语音模型团队以王明军、李满超两位演播圈大咖的声音为基础,采用新技术合成的有声书,已上线番茄小说,受到用户的广泛欢迎。

编辑:杨艳

 

标签:

猜你喜欢

英特尔在ISSCC 2025出新招:从芯片到系统的AI时代创新矩阵
民企座谈谋发展 海南南国食品献策展担当
重庆普瑞彭艳丽出席蔡司新一代机器人全飞秒 VISUMAX800及新微创手术SMILEpro上市
惊爆!OK 智慧教育大模型登场,包头 AI 学校开启教育新篇!
上海润吧:AI数字赋能,科技兴安
做好科技金融大文章,深圳福田银座村镇银行赋能新质生产力发展
《中国武术王中王》赛事真人秀第一季收官:拳风破圈,唤醒千年武魂
安阳市生态环境局滑县分局开展非道路移动机械专项执法检查
环保宣教进古会 生态理念润民心
以文化为引擎,兴和集团开启2025高质量发展新篇章
高效镇痛,兵兵平安吲哚美辛凝胶贴膏助力打工人摆脱疼痛困扰
数字北极星与DeepSeek深度融合,引领流程智能的AI革命
诺希实业携手啄木鸟家庭维修,共绘手机维修新蓝图
与春同游 与艺同栖 ,春间集艺术生活主题活动在杭州成功举办
持续一个月!海口万人免费体检大型公益活动启动
2025福布斯中国新锐创新创业者论坛暨颁奖盛典圆满收官
MET蛋白过表达:NSCLC治疗的新靶点
MET异常深度解读:致癌“元凶”、精准检测与靶向疗法
瑞幸发布“三个100”轻乳茶标准倡议,以健康驱动产业升级
东航再开国际新航线!上海直航阿布扎比4月28日开飞
千寻位置获颁“上海市创新型企业总部”
HAIRMOZZ「茂丘」破局传统脱发治疗:科学干预与疗愈体验双重革命
现制饮品行业《品质轻乳茶 采用“三个100”标准》倡议发布
重新定义“轻乳茶”+9.9元打法!瑞幸咖啡要在茶饮赛道掀起大战?
从理论到实践:唐华的信仰与治企之道
金博智慧:孩子专注力不集中?每天30分钟训练,科学提升专注力
科研赋能,品质为先:复方塞隆胶囊的科技之路
龙马精神激荡时代强音【神州龙马行—袁烈州画展】盛大启幕
以社会保险档案信息化建设推动社会保险业务畅通经办问题研究
浅春系女孩面部养成记:润致玻尿酸塑造明媚少女颜