-
合成方法
-
频谱参数合成(Articulatory Synthesis)
- 并联共振峰合成
- 串/并联共振峰合成
- 基于LPC参数合成
-
定义
- 根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形
-
组成
-
前端处理
- 解析文本
- 建模
- 声码器
-
波形拼接(Formant Synthesis)
-
基頻同步累加法(PSOLA)
- 在语音波形上做时域韵律修正来合成语音
-
缺点
-
数据库要求太大,需要保存大量原音信息(一般需要几十个小时的成品语料)
- 企业级商用的话,需要至少5万句,费用成本在几百万元。
- 若库里音素切分出错、语言学标注出错,则最后合成的语音发音也会出错
-
优点
- 语音质量较高,听起来比较自然。
- 合成清晰的语音需要准确参数,使用困难,语音不自然
- 架构简单,容易实现,音色自然度提升
-
评测标准
-
主观测试
- MOS(Mean Opinion Scores): 专家级评测;1-5分,5分最佳
- .ABX:普通用户评测,让用户来视听两TTS系统,对比优劣
-
客观测试
-
对合成系统产生的声学参数进行评估
- 计算欧式距离等(RMSE,LSD)
-
对合成系统工程上的测试
- 实时率(合成耗时/语音时长)
- 首包响应时间(用户发出请求到用户感知到的第一包到达时间)
-
技术边界
-
通用TTS
-
用户预期不高,可满足商业化需求
- 如滴滴,高德,智能音箱
- 用户预期高,则很难满足
-
个性化TTS
- 效果没通用TTS好
-
情感TTS
-
业界情感合成增多
- 数据变多
-
依赖于NLP技术
- 情感意图识别、情感特征挖掘、情感数据和情感声学技术
-
合成方法
-
物理机理合成
-
概述
- 物理机理语音合成是通过对人产生语音的物理结构进行建模,从而产生语音
-
缺点
- 1. 对语音产生过程中发生器官的运动和变化进行度量非常困难
- 2. 对通过声道气流特征和运动轨迹的数学建模也非常复杂,模型计算量过于庞大。
-
源-滤波器合成
-
概述
- 一般会在音库中预先存放各种语音合成
单元的声道参数,对这些参数根据控制规则的要求来进行修改,以合成各种
环境下的语音。
- 该模型语音生成过程是在激励信号的激励下, 声波经谐振腔(声道)由嘴或鼻辐射声波。因此,源—滤波器语音合成的理论基础正是声音由激励和相应的滤波器形成
-
激励方法
- 一种是周期性的激励,主要产生浊音信号
- 一种是类似噪声的激励,主要产生非浊音语音信号
-
合成方法
-
共振峰合成
- 概念
- 习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色
- 缺点
- 共振峰模型描述了语音中最基本的部分,但并不能表征影响语音自
然度的其他细微的语音成分,从而影响了合成语音的自然度
- 共振峰合成器控制十分复杂,其控制参数往往达到几十个,实现起来十分困难
-
LPC(线性预测分析)
- 概念
- 以线性预测误差滤波器为基础来模拟声道,从而进行语音合成
- 优点
- 简单直观,其合成过程实质上只是一种简单的解码和拼接过程
- 由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部信息,因而对于单个合成基元来说能够获得很高的自然度
- 缺点
- 而 LPC 技术从本质上来说只是一种录音加重放,对于合成整个连续语流 LPC 合成技术的效果是不理想的
-
波形拼接合成
-
概述
- 基本原理就是根据输入文本分析得到的信息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整,然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可以是前端分析所得到的韵律文本,也可以是生成的声学参数(比如基频、时长和频谱参数),或两者兼有
-
合成流程
- 流程
-
拼接方案
-
基于线性预测系数(LPC)
- 单个基元自然度很高,整体效果自然度不好
-
基于基音同步叠加(PSOLA)进行波形拼接
- 更加注意了语音合成时韵律的控制与修改。与前一种直接拼接合成不同,PSOLA 在进行波形拼接之前,对拼接单元按照目标上下文环境进行韵律的调整,使最后合成波形既保持原始发音的音质,又能使拼接单元的韵律特征符合目标上下文的要求,因此具有较高的清晰度和自然度
-
可训练模型合成
-
HMM
-
优点
- HMM语音合成方法更加灵活
- 占用资源较少,适应于嵌入式系统
- 合成的语音有更好的可扩展性等
-
上下文相关声学建模
- 合成基元选择
- 评价准则
- 灵活性要求基元尽可能的小,如音素而稳定性则希望基元尽可能大,如音节,词
- 方法
- 西方语言
- 音素(Phoneme),双音素(Diphone)或上下文相关音素(Triphone)作为合成基元
- 音节
- 适用于上下文无关,使用上下文相关时由前接一当前一后续所组成的3元组的数目将过于庞大
- 汉语约有400个无调音节和多1300个有调音节
- 声韵母
- 优点
- 声韵结构是汉语音节特有的结构,使用声韵母基元,可以利用已有的语言学知识,进而提高声学模型的性能
- 使用声韵母作为识别基元,上下文相关信息也变得比较确定
- 选择声韵母作为基元,使得语音段的长度和基元数目比较适当
- 组成
- 声母:如b,p,m,f...
- 韵母:如a,ai,ang,ao..等
- 静音:Sil,pau,sp
- 基于决策树的状态共享
- 问题集
- 划分特征
- 发音特征和上下文环境特征不仅影响基元的频谱和能量,同样影响着上下文相关基元的状态时长和基音周期
- 声母的特征划分
- 韵母的划分特征
- 上下文相关信息划分特征
- 问题集的定义
- 对于发音相似性的特征,每个特征都会对应三个问题左问题,中心问题和右问题
- 对于上下文相关信息的划分特征,问题的设计方式为首先对每个单独的划分特征建立各自的问题,然后,对关系密切的划分特征建立联合的问题
- 发音相似的特征
- 部分韵母的划分特征
- 上下文相关信息的划分特征
- 决策树的构建
- 对每个中心基元的每个状态分别构造决策树
- 前提
- 假设当基元的中心音素不同时,基元之间相互独立,
- 特点
- 只有相同基元的状态才会被共享,这样对保证最后合成语音的单音清晰度
- 对所有基元的同一个状态构造决策树
- 优点
- 有助于减小最终模型的规模,并且可以在一定程度上提高对训练集中未出现基元的鲁棒性
- 状态时长模型
- 影响因素
- 发音基元的特征,强调程度,在句子词语中的位置等
- 描述
- 状态时长的密度选择由参数型的概率密度函数(probability density functions(p.d.f))来描述
- 状态持续时长由一个单高斯分布模型描述。高斯分布密度的维数与的有效状态数相同。第N个维度与HMM的第n个有效状态相对应
- 决策树建模
- 通过问题集中的句子,词字等环境相关的问题,我们可以得到相应的状态时长
- 基音周期模型
- 概念
- 基音周期是指声门张开到下一次张开的时间
- 语音信号
- 基音周期与发音人的性别,语气,语调等因素相关,是一个连续的值
- 如等清辅音,是没有基音周期的。
- 有声部分
- 无声部分
- 可观测到的由一个一维的空间“有声”,,和一个零维的空间“无声“,组成。很适合用MSD-HMM描述
- 决策树建模
- 问题集中的句子,词,字等环境相关的问题,可以得到相应的基音周期
-
合成
- 使用模型
- Source-filter model