Audio samples of "Chinese Text-To-Speech(TTS) based on Deep Learning"

Abstract: The disruptively designed end-to-end speech synthesis system Tacotron2 is currently only available in English. This paper is devoted to the multi-directional improvement of Tacotron2, and designs a Chinese speech synthesis scheme, which mainly includes: adding pre-processing modules to convert Chinese into phonetic characters for the problems of Chinese characters, such as non-sound, transposition and multi-tone; In the case of insufficient Chinese training corpus, the pre-training decoder is used to obtain better sound quality in less corpus; for the Chinese speech synthesis rapid pause problem, the cross entropy loss is weighted, and the multi-layer perceptron is used instead of the linear transformation pair. The strategy of stopping the predictor has been effectively improved; in addition, the Chinese speech synthesis quality has been further improved by adding a multi-attention mechanism. The experimental comparison of the Mel spectrum and the Mel cepstrum distance shows that our work is effective and can make Tacotron2 better adapt to the requirements of Chinese speech synthesis.

Chinese speech

卡尔普陪外孙玩滑梯。	假语村言别再拥抱我。	宝马配挂跛骡鞍，貂蝉怨枕董翁榻。	邓小平与撒切尔会晤。
Real speech:

Synthesized:
0: 这是一条测试语句。	1: 我希望能够合成流畅的语音。	2: 语音合成是利用电子计算机和一些专门装置模拟人，制造语音的技术。	3: 华东师范大学，简称华东师大，位于中国上海，由中华人民共和国教育部直属。

4: 我希望能够在陈老师的指导下，帮助陈同学完成毕业论文。	5: 八百标兵奔北坡，炮兵并排北边跑，炮兵怕把标兵碰，标兵怕碰炮兵跑。	6: 老龙恼怒闹老农，老农恼怒闹老龙。农怒龙恼农更怒，龙恼农怒龙怕农。	7: 春眠不觉晓，处处闻啼鸟。夜来风雨声，花落知多少。

8: 寻寻觅觅，冷冷清清，凄凄惨惨戚戚。乍暖还寒时候，最难将息。三杯两盏淡酒，怎敌他、晚来风急！雁过也，正伤心，却是旧时相识。满地黄花堆积，憔悴损，如今有谁堪摘？守着窗儿，独自怎生得黑！梧桐更兼细雨，到黄昏、点点滴滴。这次第，怎一个愁字了得！		9: 我是一种端到端带注意力机制的，序列到序列的生成模型，该模型包括一个编码器、一个基于注意力的解码器以及一个后端处理网络。梅尔生成网络输入字符，输出原始谱图，然后声码器把这个声谱图转换成波形图。该模型将字符序列输入编码器，编码器将提取出文本的顺序表示，每个字符被表示为一个独热向量嵌入到连续向量中。然后加入非线性变换，再然后加上一个随机丢弃，以减少过度拟合。这在本质上减少了单词的发音错误。模型所用的解码器是基于内容注意力的解码器，然后使用声码器生成最终的波形图。

Fine-tunning with THCHS-30(A8, male)

绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然。	他仅凭腰部的力量，在泳道上下翻腾，蛹动蛇行，状如海豚，一直以一头的优势领先。	菜做好了，一碗清蒸武昌鱼一碗蕃茄炒鸡蛋一碗榨菜干子炒肉丝。	她看看夜己很深，白天的炎热已给夜凉吹散，吩咐大家各自安息明天继续玩乐。
Real speech:

Synthesized:
0: 这是一条测试语句。	1: 我希望能够合成流畅的语音。	2: 语音合成是利用电子计算机和一些专门装置模拟人，制造语音的技术。	3: 华东师范大学，简称华东师大，位于中国上海，由中华人民共和国教育部直属。

4: 我希望能够在陈老师的指导下，帮助陈同学完成毕业论文。	5: 八百标兵奔北坡，炮兵并排北边跑，炮兵怕把标兵碰，标兵怕碰炮兵跑。	6: 老龙恼怒闹老农，老农恼怒闹老龙。农怒龙恼农更怒，龙恼农怒龙怕农。	7: 春眠不觉晓，处处闻啼鸟。夜来风雨声，花落知多少。

8: 寻寻觅觅，冷冷清清，凄凄惨惨戚戚。乍暖还寒时候，最难将息。三杯两盏淡酒，怎敌他、晚来风急！雁过也，正伤心，却是旧时相识。满地黄花堆积，憔悴损，如今有谁堪摘？守着窗儿，独自怎生得黑！梧桐更兼细雨，到黄昏、点点滴滴。这次第，怎一个愁字了得！		9: 我是一种端到端带注意力机制的，序列到序列的生成模型，该模型包括一个编码器、一个基于注意力的解码器以及一个后端处理网络。梅尔生成网络输入字符，输出原始谱图，然后声码器把这个声谱图转换成波形图。该模型将字符序列输入编码器，编码器将提取出文本的顺序表示，每个字符被表示为一个独热向量嵌入到连续向量中。然后加入非线性变换，再然后加上一个随机丢弃，以减少过度拟合。这在本质上减少了单词的发音错误。模型所用的解码器是基于内容注意力的解码器，然后使用声码器生成最终的波形图。

Fine-tunning with THCHS-30(A11, female)

绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然。	可谁知，纹完后她一照镜子，只见左下眼睑的线又粗又黑，与右侧明显不对称。	七十年代末，我外出求学，母亲叮咛我，吃饭要细嚼慢咽，学习要深钻细研。	一进门，我被惊呆了，这户名叫庞吉的老农，是抗美援朝负伤回江的老兵，妻子长年有病，家徒四壁一贫如洗。
Real speech:

Synthesized:
0: 这是一条测试语句。	1: 我希望能够合成流畅的语音。	2: 语音合成是利用电子计算机和一些专门装置模拟人，制造语音的技术。	3: 华东师范大学，简称华东师大，位于中国上海，由中华人民共和国教育部直属。

4: 我希望能够在陈老师的指导下，帮助陈同学完成毕业论文。	5: 八百标兵奔北坡，炮兵并排北边跑，炮兵怕把标兵碰，标兵怕碰炮兵跑。	6: 老龙恼怒闹老农，老农恼怒闹老龙。农怒龙恼农更怒，龙恼农怒龙怕农。	7: 春眠不觉晓，处处闻啼鸟。夜来风雨声，花落知多少。

8: 寻寻觅觅，冷冷清清，凄凄惨惨戚戚。乍暖还寒时候，最难将息。三杯两盏淡酒，怎敌他、晚来风急！雁过也，正伤心，却是旧时相识。满地黄花堆积，憔悴损，如今有谁堪摘？守着窗儿，独自怎生得黑！梧桐更兼细雨，到黄昏、点点滴滴。这次第，怎一个愁字了得！		9: 我是一种端到端带注意力机制的，序列到序列的生成模型，该模型包括一个编码器、一个基于注意力的解码器以及一个后端处理网络。梅尔生成网络输入字符，输出原始谱图，然后声码器把这个声谱图转换成波形图。该模型将字符序列输入编码器，编码器将提取出文本的顺序表示，每个字符被表示为一个独热向量嵌入到连续向量中。然后加入非线性变换，再然后加上一个随机丢弃，以减少过度拟合。这在本质上减少了单词的发音错误。模型所用的解码器是基于内容注意力的解码器，然后使用声码器生成最终的波形图。