-
训练阶段
-
1.文本分析---对应frontend
- 1txt转换为utt文件。 Festival 使用了英文词典,语言规范等文件,将txt转换成包含了
文本特征(如上下文,韵律等信息)的utt文件
-
2. utt转换为label
-
两种label
- state align(使用HTK来生成,以发音状态为单位的label文件,一个音素由几个发音状态组成)
- phoneme align(使用Festvox来生成,以音素为单位的label文件)
-
目的
- 在获得utt的基础上,需要对每个音素的上下文信息,韵律信息进行更为细致的整理
-
2.音频特征参数---对应vocoder
-
声码特征
- 1. MGC特征:通过语音提取的MFCC特征由于维度太高,并不适合直接放到网络上进行训练,所以就出现了MGC特征,将提取到的MFCC特征降维(在这三个声码器中MFCC都被统一将低到60维),以这60维度的数据进行训练就形成了我们所说的MGC特征。
- 2. BAP特征: Band Aperiodicity的缩写
- 3. LF0:LF0是语音的基频特征
-
Merlin中自带的vocoder
-
Straight
- 音频文件通过Straight声码器产生的是
- 60维的MGC特征
- 25维的BAP特征
- 1维的LF0特征
- 通过 STRAIGHT 合成器提取的谱参数具有独特 特征(维数较高),
要使用 SPTK 工具将其特征参数降维, 转换为 HTS 训练中可用的
mgc参数,最后 利用原 STRAIGHT 合成器进行语音合成
-
World
- 60维的MGC特征
- 可变维度的BAP特征
- 对于16kHz采样的音频信号,BAP的维度为1
- 对于48kHz采样的音频信号,BAP的维度为5
- 1维的LF0特征
-
World_v 2(测试中)
- 60维的MGC特征
- 5维的BAP特征
- 1维的LF0特征
-
3.HMM模型聚类---对应Question file
- 合成系统中, 给定的是 HMM 模型和音节序列(经过文本分析得到的结果), 要计算的是这些音节序列对应的观测序列, 也就是特征参数
- HTS的训练部分的作用就是由最初的原始语料库经过处理和模型训练后得到这些训练语料的HMM模型
-
构建流程
-
1. 状态数的选择,因为语音的时序特性,一个模型的状态
数量将影响每个状态持续的长短,一般根据基元确定
- 音素或半音节的基元,一般采用5状态的HMM
- 音节的基元一般采用10个状态
- 2. 为了模型的简化,可以将HMM中的转移矩阵用一个时长模型(dur)替代
- 4.NN模型训练---对应NN model
-
合成阶段
- 1.文本分析---对应frontend
- 2.NN解码---对应NN模型训练
- 3.语音合成---对应vocoder