1. 合成方法
    1. 频谱参数合成(Articulatory Synthesis)
      1. 并联共振峰合成
      2. 串/并联共振峰合成
      3. 基于LPC参数合成
      4. 定义
        1. 根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形
      5. 组成
        1. 前端处理
          1. 解析文本
        2. 建模
        3. 声码器
    2. 波形拼接(Formant Synthesis)
      1. 基頻同步累加法(PSOLA)
        1. 在语音波形上做时域韵律修正来合成语音
      2. 缺点
        1. 数据库要求太大,需要保存大量原音信息(一般需要几十个小时的成品语料)
          1. 企业级商用的话,需要至少5万句,费用成本在几百万元。
        2. 若库里音素切分出错、语言学标注出错,则最后合成的语音发音也会出错
      3. 优点
        1. 语音质量较高,听起来比较自然。
    3. 合成清晰的语音需要准确参数,使用困难,语音不自然
    4. 架构简单,容易实现,音色自然度提升
  2. 评测标准
    1. 主观测试
      1. MOS(Mean Opinion Scores): 专家级评测;1-5分,5分最佳
      2. .ABX:普通用户评测,让用户来视听两TTS系统,对比优劣
    2. 客观测试
      1. 对合成系统产生的声学参数进行评估
        1. 计算欧式距离等(RMSE,LSD)
      2. 对合成系统工程上的测试
        1. 实时率(合成耗时/语音时长)
        2. 首包响应时间(用户发出请求到用户感知到的第一包到达时间)
  3. 技术边界
    1. 通用TTS
      1. 用户预期不高,可满足商业化需求
        1. 如滴滴,高德,智能音箱
      2. 用户预期高,则很难满足
    2. 个性化TTS
      1. 效果没通用TTS好
    3. 情感TTS
      1. 业界情感合成增多
        1. 数据变多
      2. 依赖于NLP技术
        1. 情感意图识别、情感特征挖掘、情感数据和情感声学技术
  4. 合成方法
    1. 物理机理合成
      1. 概述
        1. 物理机理语音合成是通过对人产生语音的物理结构进行建模,从而产生语音
      2. 缺点
        1. 1. 对语音产生过程中发生器官的运动和变化进行度量非常困难
        2. 2. 对通过声道气流特征和运动轨迹的数学建模也非常复杂,模型计算量过于庞大。
    2. 源-滤波器合成
      1. 概述
        1. 一般会在音库中预先存放各种语音合成 单元的声道参数,对这些参数根据控制规则的要求来进行修改,以合成各种 环境下的语音。
        2. 该模型语音生成过程是在激励信号的激励下, 声波经谐振腔(声道)由嘴或鼻辐射声波。因此,源—滤波器语音合成的理论基础正是声音由激励和相应的滤波器形成
      2. 激励方法
        1. 一种是周期性的激励,主要产生浊音信号
        2. 一种是类似噪声的激励,主要产生非浊音语音信号
      3. 合成方法
        1. 共振峰合成
          1. 概念
          2. 习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色
          3. 缺点
          4. 共振峰模型描述了语音中最基本的部分,但并不能表征影响语音自 然度的其他细微的语音成分,从而影响了合成语音的自然度
          5. 共振峰合成器控制十分复杂,其控制参数往往达到几十个,实现起来十分困难
        2. LPC(线性预测分析)
          1. 概念
          2. 以线性预测误差滤波器为基础来模拟声道,从而进行语音合成
          3. 优点
          4. 简单直观,其合成过程实质上只是一种简单的解码和拼接过程
          5. 由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部信息,因而对于单个合成基元来说能够获得很高的自然度
          6. 缺点
          7. 而 LPC 技术从本质上来说只是一种录音加重放,对于合成整个连续语流 LPC 合成技术的效果是不理想的
    3. 波形拼接合成
      1. 概述
        1. 基本原理就是根据输入文本分析得到的信息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整,然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可以是前端分析所得到的韵律文本,也可以是生成的声学参数(比如基频、时长和频谱参数),或两者兼有
      2. 合成流程
        1. 流程
      3. 拼接方案
        1. 基于线性预测系数(LPC)
          1. 单个基元自然度很高,整体效果自然度不好
        2. 基于基音同步叠加(PSOLA)进行波形拼接
          1. 更加注意了语音合成时韵律的控制与修改。与前一种直接拼接合成不同,PSOLA 在进行波形拼接之前,对拼接单元按照目标上下文环境进行韵律的调整,使最后合成波形既保持原始发音的音质,又能使拼接单元的韵律特征符合目标上下文的要求,因此具有较高的清晰度和自然度
    4. 可训练模型合成
      1. HMM
        1. 优点
          1. HMM语音合成方法更加灵活
          2. 占用资源较少,适应于嵌入式系统
          3. 合成的语音有更好的可扩展性等
        2. 上下文相关声学建模
          1. 合成基元选择
          2. 评价准则
          3. 灵活性要求基元尽可能的小,如音素而稳定性则希望基元尽可能大,如音节,词
          4. 方法
          5. 西方语言
          6. 音素(Phoneme),双音素(Diphone)或上下文相关音素(Triphone)作为合成基元
          7. 音节
          8. 适用于上下文无关,使用上下文相关时由前接一当前一后续所组成的3元组的数目将过于庞大
          9. 汉语约有400个无调音节和多1300个有调音节
          10. 声韵母
          11. 优点
          12. 声韵结构是汉语音节特有的结构,使用声韵母基元,可以利用已有的语言学知识,进而提高声学模型的性能
          13. 使用声韵母作为识别基元,上下文相关信息也变得比较确定
          14. 选择声韵母作为基元,使得语音段的长度和基元数目比较适当
          15. 组成
          16. 声母:如b,p,m,f...
          17. 韵母:如a,ai,ang,ao..等
          18. 静音:Sil,pau,sp
          19. 基于决策树的状态共享
          20. 问题集
          21. 划分特征
          22. 发音特征和上下文环境特征不仅影响基元的频谱和能量,同样影响着上下文相关基元的状态时长和基音周期
          23. 声母的特征划分
          24. 韵母的划分特征
          25. 上下文相关信息划分特征
          26. 问题集的定义
          27. 对于发音相似性的特征,每个特征都会对应三个问题左问题,中心问题和右问题
          28. 对于上下文相关信息的划分特征,问题的设计方式为首先对每个单独的划分特征建立各自的问题,然后,对关系密切的划分特征建立联合的问题
          29. 发音相似的特征
          30. 部分韵母的划分特征
          31. 上下文相关信息的划分特征
          32. 决策树的构建
          33. 对每个中心基元的每个状态分别构造决策树
          34. 前提
          35. 假设当基元的中心音素不同时,基元之间相互独立,
          36. 特点
          37. 只有相同基元的状态才会被共享,这样对保证最后合成语音的单音清晰度
          38. 对所有基元的同一个状态构造决策树
          39. 优点
          40. 有助于减小最终模型的规模,并且可以在一定程度上提高对训练集中未出现基元的鲁棒性
          41. 状态时长模型
          42. 影响因素
          43. 发音基元的特征,强调程度,在句子词语中的位置等
          44. 描述
          45. 状态时长的密度选择由参数型的概率密度函数(probability density functions(p.d.f))来描述
          46. 状态持续时长由一个单高斯分布模型描述。高斯分布密度的维数与的有效状态数相同。第N个维度与HMM的第n个有效状态相对应
          47. 决策树建模
          48. 通过问题集中的句子,词字等环境相关的问题,我们可以得到相应的状态时长
          49. 基音周期模型
          50. 概念
          51. 基音周期是指声门张开到下一次张开的时间
          52. 语音信号
          53. 基音周期与发音人的性别,语气,语调等因素相关,是一个连续的值
          54. 如等清辅音,是没有基音周期的。
          55. 有声部分
          56. 无声部分
          57. 可观测到的由一个一维的空间“有声”,,和一个零维的空间“无声“,组成。很适合用MSD-HMM描述
          58. 决策树建模
          59. 问题集中的句子,词,字等环境相关的问题,可以得到相应的基音周期
        3. 合成
          1. 使用模型
          2. Source-filter model