北京师范大学智能媒体计算实验室

科学研究

代表性在研项目

所在位置: 首页» 科学研究» 代表性在研项目

基于发声机理表征的可控个性化语音合成

国家自然科学基金青年项目，项目编号：62302046 , 执行期：2024.01-2026.12，经费：30万

项目内容简介：

个性化语音合成技术，旨在针对目标说话人，可控地合成匹配其音色、符合其语音韵律且具有丰富情感表达的语音，实现慕课名师、影视演员、父母亲人等特定人物的配音。针对个性化语音合成研究面临的挑战——说话人音色个体差异大、情感表达范围广，本项目拟研究基于发声机理的说话人语音个性化表示和学习，具体包括: 1) 构建音色发声机理表征模型，即基于发音器官形状，将音色转化为可表示、可理解的音色特征，突破小样本语音合成结果与说话人音色相似度低的瓶颈; 2) 构建韵律发声机理表征模型，即基于发音器官的协同运动，实现机理与数据双驱动的说话人语音韵律建模，进而构建多层级情感韵律表达，解决合成语音情感受限的问题。基于上述可控的参数化表示，本项目拟设计交互式语音合成方法，增强合成结果的个性化表达。项目成果有望为语音合成系统提供重要的技术支撑，助力多媒体智能交互应用在我国教育教学、家庭服务、文化传媒等关键社会领域的普及。

联系我们

地址：北京市海淀区新街口外大街19号

邮编：100875

邮箱：huahuang@bnu.edu.cn

快速链接

北京师范大学

北京师范大学人工智能学院