本周值得读-2022_04_23
The 2021 NIST Speaker Recognition Evaluation
简介
结果
简评
- 介绍说话人识别比赛SRE21
- 大规模多模态说话人识别比赛:The 2021 Speaker Recognition Evaluation (SRE21)和SRE19
- 语音-视觉融合模型显著优于仅语音/仅视觉的系统;最优语音/人脸的识别性能相当;度量损失+复杂神经网络+数据增强+长语料微调显著提升语音识别的表现。
The NIST CTS Speaker Recognition Challenge
简介
结果
简评
介绍电话对话语音( Conversational Telephone Speech,CTS)说话人识别比赛。
Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation
简介
结果
简评
- 低资源跨说话人情感迁移语音合成,主要途径是数据增强
- 样音:https://ryojerky.github.io/demo_vc-tts-ps/,效果还不错,工程性质比较强
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis
简介
结果
简评
- 基于概率扩散模型的语音合成,堆叠不同感受野模式时间感知的局部卷积,以建模可变条件的长时依赖,加入噪音计划预测器(noise schedule predictor),不需要梅尔频谱等中间声学特征,完全端到端的语音合成模型。
- 样音地址:https://fastdiff.github.io/。样音上确实还不错,沙哑的情况变少了,特别是未见说话人合成上优势明显。
- 值得研究的语音合成论文,最近概率扩散模型在语音合成上较为火热。
Layer-wise Fast Adaptation for End-to-End Multi-Accent Speech Recognition
简介
结果
简评
研究语音识别中的口音问题。引入口音自适应结构,输入一个句子,该结构提取对应的口音信息。在AESRC2020口音数据集和Librispeech上,获得WER12%和10%的相对提升。
Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering
简介
结果
简评
语音问答数据集。包括1991条15到30秒的音频,每条语音设置了6个回答。地址:https://zenodo.org/record/6473207
Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech Translation
简介
结果
简评
连续语音翻译(Simultaneous speech translation,SimulST),难点:流式模式下,在尚未获得完整输入之前就开始翻译出对应语音。SimulST通常包括两个结构:整合语音信息的预决策(pre-decision)结构,决定读或写的结构。该文针对预决策,提出连续整合和输出(the Continuous Integrateand-Fire,CIF),计算更简单,延迟更小,长句合成更好。
Improving Self-Supervised Speech Representations by Disentangling Speakers
简介
结果
简评
通过解耦说话人提升自监督语音表示,该工作是HuBERT的改进。
An Investigation of Monotonic Transducers for Large-Scale Automatic Speech Recognition
简介
结果
简评
Meta工作,通过联合LAS训练,或者利用RNN-T初始化参数,MonoRNN-T和CTC-T的表现持平甚至优于RNN-T。
Time Domain Adversarial Voice Conversion for ADD 2022
简介
结果
简述
贝壳在ADD 2022(Audio Deep Synthesis Detection Challenge)比赛中提出的语音转换模型。
On the Locality of Attention in Direct Speech Translation
简介
结果
简评
语音翻译,提出了一种局部有效注意力机制替换Transformer中的标准自注意力机制。
Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation
简介
结果
简评
针对语言理解(Spoken Language Understanding,SLU)和语音翻译(Speech Translation,ST)任务,提出了块状流式Transformer。
Self Supervised Adversarial Domain Adaptation for Cross-Corpus and Cross-Language Speech Emotion Recognition
简介
结果
简评
自监督语音情感识别。
Extracting Targeted Training Data from ASR Models, and How to Mitigate It
简介
结果
简评
谷歌工作,防止ASR模型训练过程中导致的数据泄露。
Advances in Thunder Sound Synthesis
简介
结果
简评
雷声、爆炸声生成。https://github.com/bineferg/thunder-synthesis
Improving Rare Word Recognition with LM-aware MWER Training
简介
结果
简评
谷歌工作,提升语音识别中的罕见词识别准确率,将语言模型引入语音识别声学模型的训练过程中。
Applying Feature Underspecified Lexicon Phonological Features in Multilingual Text-to-Speech
简介
结果
简评
- 多语种语音合成中的文本前端特征设计。
- 样音效果不行,https://congzhang365.github.io/feature_tts/