代表性在研项目

所在位置: 首页» 科学研究» 代表性在研项目

基于发声机理表征的可控个性化语音合成

国家自然科学基金青年项目,项目编号:62302046 , 执行期:2024.01-2026.12,经费:30万

项目内容简介:

image.png

个性化语音合成技术,旨在针对目标说话人,可控地合成匹配其音色、符合其语音韵律且 具有丰富情感表达的语音,实现慕课名师、影视演员、父母亲人等特定人物的配音。针对个性 化语音合成研究面临的挑战——说话人音色个体差异大、情感表达范围广,本项目拟研究基于 发声机理的说话人语音个性化表示和学习,具体包括: 1) 构建音色发声机理表征模型,即基于发音器官形状,将音色转化为可表示、可理解的音色特征,突破小样本语音合成结果与说话人音色相似度低的瓶颈; 2) 构建韵律发声机理表征模型,即基于发音器官的协同运动,实现机理与数据双驱动的说话人语音韵律建模,进而构建多层级情感韵律表达,解决合成语音情感 受限的问题。基于上述可控的参数化表示,本项目拟设计交互式语音合成方法,增强合成结果的个性化表达。项目成果有望为语音合成系统提供重要的技术支撑,助力多媒体智能交互应用在我国教育教学、家庭服务、文化传媒等关键社会领域的普及。