《人工智能》目录

前言
AI模型框架-地址库

Attention Is All You Need 注意⼒是你所需要的

yolo相关内容
数据中心
BCC汉语语料库
理论知识
大名鼎鼎的GPT的名字解释

大语言模型（LLM）

点积，内积，数量积的定义

Transformer一篇通

解读AI大模型，从了解token开始

矩阵和矩阵相乘怎么计算

softmax函数归一化指数函数

统计语言模型（Bigram建模训练））

人工智能的黎明：从信息动力学的角度看ChatGPT
基本安装
安装torch和cuda
基本知识
【大语言模型LLM】-基础语言模型和指令微调的语言模型

【大语言模型LLM】-大语言模型如何编写Prompt?

ai的均值和标准差，方差

用初中数学理解大模型工作原理
Transformer
深入理解 Transformer 技术原理

gpt入门：picoGPT教程

gpt入门：NanoGPT教程

gpt入门：mingpt教程
脉冲神经网络 (SNN)
脉冲神经网络 (Spiking Neural Network) 解读 (一)
数据处理
chartjs：新出的图标展示框架

常用数据git
声音处理
FunASR：阿里的语音识别

Kaldi：ASR，语音识别，可以训练声学模型

星辰语音识别开源大模型：中国电信，【超多方言】ASR

最难方言温州话被攻克！中国电信语音大模型支持30种方言

播放音频文件

让 Python 来帮你朗读网页吧

从零开始搭建一个语音对话机器人

Seed-TTS：字节发布高性能高逼真语音合成框架

ChatTTS：语音合成

edge-tts：语音合成，调用的微软edge的在线语音合成服务

pyttsx3：语音转换

python实现TTS离线语音合成

StyleTTS2：one-shot语音风格迁移和逼真语音转换的论文阅读和代码实战

Matcha-TTS：语音合成，

Bailing-TTS：巨人网络支持普通话和方言混说的TTS大模型
图像处理
SAT：开源3D医学大模型SAT，性能超越72个nnU-Nets，上交大团队发布

EasyPhoto：阿里的您的智能 AI 照片生成器
视频处理
EasyAnimate：阿里高分辨率长视频生成的端到端解决方案

Tora:阿里的简单几笔快速生成精确运动控制的视频

LivePortrait：快手视频驱动照片或视频，可以复制面部表情

Champ:阿里发布的人物图片+视频转换为合成视频

Hallo:复旦大学音频+人脸图像=视频生成模型
文字处理
多模处理
VASA-1：实时音频驱动的超逼数字人说话面部视频生成技术

EchoMimic:阿里的数字人生成，语音和视频合成

MuseTalk：腾讯的AI数字人口型同步工具
动态记忆和自我反思
Reflexion：具有动态记忆和自我反思的自主代理

百度生产一个反思功能代码python
论文精选
2023年4月的12篇AI论文推荐

2023年12月论文推荐

论文解读

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
大模型LLM
本地搭建私有大模型平台

Stability AI发布AI音频模型Stable Audio Open，音乐制作

通义千问：qwen

Qwen2：阿里通义千问2.0出来了，大模型升级了

huggingface的模型文件的目录结构
AIAgent
新一代AI模型Claude 3：有大学生智商，全面超越GPT-4

FastChat——一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台

谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3

LangChain-Chatchat (原 Langchain-ChatGLM)

MaxKB本地私有大模型部署

YOLO v10视觉目标检测算法本地端部署

Fay数字人框架助理版

百度开源 / Senta - 情感分析旨

Moshi：法国的ai研究者Kyutai推出开源实时语音多模态模型

GraphRAG：微软开源的下一代 RAG 技术

Move AI 推出 Move API，实现 2D 视频转 3D 运动数据

Cloudflare 推出一键阻止 AI 机器人的新工具

腾讯开源混元 Captioner 模型，优化文生图数据集生成

改变答题顺序会显著降低大模型准确率

OpenDevin：卡内基梅隆大学教授创立 All Hands AI，推出开源 AI 软件代理 OpenDevin

漆远创立无限光年，获阿里投资进军可信大模型赛道

阿里发布 FunAudioLLM 开源项目，推出 SenseVoice 和 CosyVoice 两大语音模型

快手文生图大模型 Kolors 宣布开源

商汤科技发布 InternLM-XComposer2.5 视觉语言模型

穹彻智能推出具身大脑 Noematrix Brain，聚焦操作物理常识与行为决策

华中科技大学等团队推出 Holmes-VAD，实现视频异常检测与解释

可灵AI/Kling：快手视频生成大模型可灵 AI Kling

彻底改变语言模型：全新架构TTT，ML模型代替RNN隐藏状态

新型TTT架构诞生，能否取代Transformer和Mamba成为最强大模型？

DG4D/DreamGaussian4D：四维建模及运动控制模型

CosyVoice:阿里的语音生成，支持多语言、音色和情感控制

SenseVoice ：阿里语音识别、语种识别、情感识别、声学事件分类或检测

Seed-TTS：字节的的语音生成，太逼真太形象了

Fish-Speech：开源的TTS项目，语音生成

ollama:大模型运行平台，支持cpu运行大模型

当实时数字人遇上LLM

CMD 下的基本指令

语音对话大模型：借助阿里的FunAudioLLM搭建语音对话模型

CogVideo：智谱版Sora开源爆火，4090单卡运行，A6000可微调
功能模块

暂无章节

Matcha-TTS：语音合成，

作者：好邻居发布时间：2024-07-19 14:43:43

阅读： 123

正文

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域

Matcha-TTS是第一个开源conditional normalising flows语音合成项目，提供基于 LJSpeech 和 VCTK 数据预训练模型以供测评

Matcha-TTS有两个主要的贡献和其他建议:

1. We propose an improved encoder-decoder TTS architecture that uses a combination of 1D CNNs and Transformers in the decoder. This reduces memory consumption and is fast to evaluate, improving synthesis speed.

相对于Grad-TTS的decoder，使用了1D CNNs替换2D CNNs、并加入Transformers块

2. We train these models using optimal-transport conditional flow matching (OT-CFM) , which is a new method to learn ODEs that sample from a data distribution. Compared to conventional CNFs and score-matching probability flow ODEs, OT-CFM defines simpler paths from source to target, enabling accurate synthesis in fewer steps than DPMs.

使用Flow Matching加速技术

3. 使用旋转位置编码(rotational position embeddings) RoPE，减少存储

4. 使用MAS对齐

5. 使用snake beta激活函数

开源地址：

https://github.com/shivammehta25/Matcha-TTS

工程展示：

https://shivammehta25.github.io/Matcha-TTS/

在线推理：

https://huggingface.co/spaces/shivammehta25/Matcha-TTS

中文实现：

https://github.com/PlayVoice/Grad-TTS-Chinese

（Grad-TTS-CFM，其他优化还未集成）

原文链接：https://blog.csdn.net/weixin_48827824/article/details/129791852

0:00

/

15:37

加载完毕:0%

进度:0%

媒体流类型直播

-15:37

上一篇: 没有了

下一篇: 没有了

圣贤书院

圣贤书院