首页
读书
网课
《人工智能》目录


正文

CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入语音合成领域

Matcha-TTS是第一个开源conditional normalising flows语音合成项目,提供基于 LJSpeech 和 VCTK 数据预训练模型以供测评


Matcha-TTS有两个主要的贡献和其他建议:


1. We propose an improved encoder-decoder TTS architecture that uses a combination of 1D CNNs and Transformers in the decoder. This reduces memory consumption and is fast to evaluate, improving synthesis speed.


相对于Grad-TTS的decoder,使用了1D CNNs替换2D CNNs、并加入Transformers块


2. We train these models using optimal-transport conditional flow matching (OT-CFM) , which is a new method to learn ODEs that sample from a data distribution. Compared to conventional CNFs and score-matching probability flow ODEs, OT-CFM defines simpler paths from source to target, enabling accurate synthesis in fewer steps than DPMs.


使用Flow Matching加速技术


3. 使用旋转位置编码(rotational position embeddings) RoPE,减少存储


4. 使用MAS对齐


5. 使用snake beta激活函数


  开源地址:


https://github.com/shivammehta25/Matcha-TTS


  工程展示:


https://shivammehta25.github.io/Matcha-TTS/


  在线推理:


https://huggingface.co/spaces/shivammehta25/Matcha-TTS


  中文实现:


https://github.com/PlayVoice/Grad-TTS-Chinese 


(Grad-TTS-CFM,其他优化还未集成)

原文链接:https://blog.csdn.net/weixin_48827824/article/details/129791852



上一篇: 没有了
下一篇: 没有了
圣贤书院