开源数据和工具
Awesome List
-
https://github.com/faroit/awesome-python-scientific-audio
-
https://github.com/wenet-e2e/speech-synthesis-paper
-
https://github.com/ddlBoJack/Speech-Resources
-
https://github.com/sindresorhus/awesome
参考书籍
-
Tan X, Qin T, Soong F, et al. A survey on Neural Speech Synthesis[J]. arXiv preprint arXiv:2106.15561, 2021.
-
Sisman B, Yamagishi J, King S, et al. An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 29: 132-157.
语音相关的会议、期刊、比赛和公司
会议
-
INTERSPEECH(Conference of the International Speech Communication Association)
-
ICASSP(IEEE International Conference on Acoustics, Speech and Signal Processing)
-
ASRU(IEEE Automatic Speech Recognition and Understanding Workshop)
-
ISCSLP(International Symposium on Chinese Spoken Language Processing)
-
ACL(Association of Computational Linguistics)
期刊
- Computer Speech and Language
最新论文
-
https://arxiv.org/list/eess.AS/recent
-
https://arxiv.org/list/cs.SD/recent
-
https://arxiv.org/list/cs.CL/recent
-
https://arxiv.org/list/cs.MM/recent
比赛
-
CHiME: Computational Hearing in Multisource Environment
-
NIST
公司
微信公众号
-
阿里语音AI
-
CCF语音对话与听觉专委会
-
CSMT
-
声学挖掘机
-
谈谈语音技术
-
THUsatlab
-
WeNet步行街
-
音频语音与语言处理研究组
-
雨石记
-
语音算法组
-
语音杂谈
-
语音之家
-
智能语音新青年
开源资料
中文数据集
-
标贝中文标准女声音库: 中文单说话人语音合成数据集,质量高。
-
THCHS-30: 中文多说话人数据集,原为语音识别练手级别的数据集,也可用于多说话人中文语音合成。
-
Free ST Chinese Mandarin Corpus: 855个说话人,每个说话人120句话,有对应人工核对的文本,共102600句话。
-
zhvoice: zhvoice语料由8个开源数据集,经过降噪和去除静音处理而成,说话人约3200个,音频约900小时,文本约113万条,共有约1300万字。
-
滴滴800+小时DiDiSpeech语音数据集: DiDi开源数据集,800小时,48kHz,6000说话人,存在对应文本,背景噪音干净,适用于音色转换、多说话人语音合成和语音识别,参见:https://zhuanlan.zhihu.com/p/268425880。
-
SpiCE-Corpus: SpiCE是粤语和英语会话双语语料库。
-
HKUST: 10小时,单说话人,采样率8kHz。
-
AISHELL-1: 170小时,400个说话人,采样率16kHz。
-
AISHELL-2: 1000小时,1991个说话人,采样率44.1kHz。希尔贝壳开源了不少中文语音数据集,AISHELL-2是最近开源的一个1000小时的语音数据库,禁止商用。官网上还有其它领域,比如用于语音识别的4个开源数据集。
10.AISHELL-3: 85小时,218个说话人,采样率44.1kHz。
英文数据集
-
LJSpeech: 英文单说话人语音合成数据集,质量较高,25小时,采样率22.05kHz。
-
VCTK: 英文多说话人语音数据集,44小时,109个说话人,每人400句话,采样率48kHz,位深16bits。
-
TIMIT: 630个说话人,8个美式英语口音,每人10句话,采样率16kHz,位深16bits。这里是具体下载地址,下载方法:首先下载种子,然后执行:
-
CMU ARCTIC: 7小时,7个说话人,采样率16kHz。语音质量较高,可以用于英文多说话人的训练。
-
Blizzard-2011: 16.6小时,单说话人,采样率16kHz。可以从The Blizzard Challenge查找该比赛的相关数据,从SynSIG查找该比赛的相关信息。
-
Blizzard-2013: 319小时,单说话人,采样率44.1kHz。
-
LibriSpeech: 982小时,2484个说话人,采样率16kHz。OpenSLR搜集了语音合成和识别常用的语料。
-
LibriTTS: 586小时,2456个说话人,采样率24kHz。
-
VCC 2018: 1小时,12个说话人,采样率22.05kHz。类似的,可以从The Voice Conversion Challenge 2016获取2016年的VC数据。
-
HiFi-TTS: 300小时,11个说话人,采样率44.1kHz。
-
TED-LIUM: 118小时,666个说话人。
-
CALLHOME: 60小时,120个说话人,采样率8kHz。
-
RyanSpeech: 10小时,单说话人,采样率44.1kHz。交互式语音合成语料。
-
People Speech: 30k小时,多说话人,多种采样率,有背景噪音,适合场景偏向于多场景语音识别,数据集主页:MLCommons/People's Speech。
情感数据集
其它数据集
-
Opencpop: 高质量歌唱合成数据集。
-
好未来开源数据集: 目前主要开源了3个大的语音数据集,分别是语音识别数据集,语音情感数据集和中英文混合语音数据集,都是多说话人教师授课音频。
-
JSUT: 日语,10小时,单说话人,采样率48kHz。
-
KazakhTTS: 哈萨克语,93小时,2个说话人,采样率44.1/48kHz。
-
Ruslan: 俄语,31小时,单说话人,采样率44.1kHz。
-
HUI-Audio-Corpus: 德语,326小时,122个说话人,采样率44.1kHz。
-
M-AILABS: 多语种,1000小时,采样率16kHz。
-
India Corpus: 多语种,39小时,253个说话人,采样率48kHz。
-
MLS: 多语种,5.1万小时,6千个说话人,采样率16kHz。
-
CommonVoice: 多语种,2500小时,5万个说话人,采样率48kHz。
-
CSS10: 十个语种的单说话人语音数据的集合,140小时,采样率22.05kHz。
-
OpenSLR: OpenSLR是一个专门托管语音和语言资源的网站,例如语音识别训练语料库和与语音识别相关的软件。迄今为止,已经有100+语音相关的语料。
-
DataShare: 爱丁堡大学维护的数据集汇总,包含了语音、图像等多个领域的数据集和软件,语音数据集中包括了语音合成、增强、说话人识别、语音转换等方面的内容。
-
Speech in Microsoft Research Open Data: 微软开源数据搜索引擎中关于语音的相关数据集。
-
voice datasets: Github上较为全面的开源语音和音乐数据集列表,包括语音合成、语音识别、情感语音数据集、语音分离、歌唱等语料,找不到语料可以到这里看看。
-
Open Speech Corpora: 开放式语音数据库列表,特点是包含多个语种的语料。
-
EMIME: 包含一些TTS和ASR模型,以及一个中文/英语,法语/英语,德语/英语双语数据集。
-
Celebrity Audio Extraction: 中国名人数据集,包含中国名人语音和图像数据。
开源工具
-
sonic: 语音升降速工具。
-
MFA: 从语音识别工具Kaldi中提取出来的音素-音频对齐工具,可以利用MFA获取每一个音素的时长,供预标注或时长模型使用。
-
宾西法尼亚大学强制对齐标注软件(P2FA):这里有相关的介绍,对于噪音数据鲁棒性差。
-
ABXpy: 语音等测评ABX测试网页。
-
SpeechSubjectiveTest: 主观测评工具,包括用于语音合成和转换的MOS、PK(倾向性测听)、说话人相似度测试和ABX测试。
-
Matools: 机器学习环境配置工具库
-
MyTinySTL: 基于C++11的迷你STL。
-
CppPrimerPractice: 《C++ Primer 中文版(第 5 版)》学习仓库。
-
git-tips: Git的奇技淫巧。
开源项目
-
coqui-ai TTS: 采用最新研究成果构建的语音合成后端工具集。
-
ESPNet: 语音合成和识别工具集,主要集成声学模型、声码器等后端模型。
-
fairseq: 序列到序列建模工具,包含语音识别、合成、机器翻译等模型。
-
eSpeak NG Text-to-Speech: 共振峰生成的语音合成模型,集成超过100个语种和口音的语音合成系统,特别地,可借鉴该项目中的多语种文本前端。
-
Epitran: 将文本转换为IPA的工具,支持众多语种。
-
Tacotron-2: Tensorflow版本的Tacotron-2.
-
Transformer TTS: TensorFlow 2实现的FastSpeech系列语音合成。
-
Text-to-speech in (partially) C++ using Tacotron model + Tensorflow: 采用TensorFlow C++ API运行Tacotron模型。
-
muzic: 微软AI音乐的开源项目,包括乐曲理解、音乐生成等多种工作。
-
merlin: CSTR开发的统计参数语音合成工具包,需要与文本前端(比如Festival)和声码器(比如STRAIGHT或WORLD)搭配使用。