本文最后更新于：2023年4月10日下午

富有表现力的语音合成系统

Tacotron-GST

在Tacotron引入了全局风格标签（Global Style Token，GST）。模型包括reference encoder，style attention，style embedding

在数据集上增加风格标签，代表话语风格的短语或词，例如情感、意图和语调。由于风格是用自然语言标记的，因此控制说话风格是直观和可解释的。

使用的韩语数据集FSNR0，内容为三元组 {speech, transcript, style tag} ，有 327 个风格标签，包括各种情绪、意图、语音语调和速度。

使用微软的TTS合成语音自建数据集，在LibriSpeech的真人数据上做验证。

其风格提示词假定有五个风格相关内容，如高声调、女声

用[CLS]Token学习隐藏的风格表示，BERT经过微调，用于输出五个风格相关特征

其中Content Encoder顶层的Variance Adaptor来自FastSpeech2，用于预测持续时间、音高、能量等。

FastSpeech2

香港中文大学+腾讯AI Lab合作

使用自然语言作为提示，指导语音合成的情绪，提示句包含整体感知情绪、话语情感水平、话语风格，每条语音由五个人写出提示句。NLSpeech内部数据集时长约44小时。

Mel-VQ-VAE

学习

#语音合成 #论文

富有表现力的语音合成系统（Expressive TTS）

https://ash-one.github.io/2023/02/10/expressive-tts/

作者

灰一

发布于

2023年2月10日

许可协议