《人工智能》目录

前言
AI模型框架-地址库

Attention Is All You Need 注意⼒是你所需要的

yolo相关内容
数据中心
BCC汉语语料库
理论知识
大名鼎鼎的GPT的名字解释

大语言模型（LLM）

点积，内积，数量积的定义

Transformer一篇通

解读AI大模型，从了解token开始

矩阵和矩阵相乘怎么计算

softmax函数归一化指数函数

统计语言模型（Bigram建模训练））

人工智能的黎明：从信息动力学的角度看ChatGPT
基本安装
安装torch和cuda
基本知识
【大语言模型LLM】-基础语言模型和指令微调的语言模型

【大语言模型LLM】-大语言模型如何编写Prompt?

ai的均值和标准差，方差

用初中数学理解大模型工作原理
Transformer
深入理解 Transformer 技术原理

gpt入门：picoGPT教程

gpt入门：NanoGPT教程

gpt入门：mingpt教程
脉冲神经网络 (SNN)
脉冲神经网络 (Spiking Neural Network) 解读 (一)
数据处理
chartjs：新出的图标展示框架

常用数据git
声音处理
FunASR：阿里的语音识别

Kaldi：ASR，语音识别，可以训练声学模型

星辰语音识别开源大模型：中国电信，【超多方言】ASR

最难方言温州话被攻克！中国电信语音大模型支持30种方言

播放音频文件

让 Python 来帮你朗读网页吧

从零开始搭建一个语音对话机器人

Seed-TTS：字节发布高性能高逼真语音合成框架

ChatTTS：语音合成

edge-tts：语音合成，调用的微软edge的在线语音合成服务

pyttsx3：语音转换

python实现TTS离线语音合成

StyleTTS2：one-shot语音风格迁移和逼真语音转换的论文阅读和代码实战

Matcha-TTS：语音合成，

Bailing-TTS：巨人网络支持普通话和方言混说的TTS大模型
图像处理
SAT：开源3D医学大模型SAT，性能超越72个nnU-Nets，上交大团队发布

EasyPhoto：阿里的您的智能 AI 照片生成器
视频处理
EasyAnimate：阿里高分辨率长视频生成的端到端解决方案

Tora:阿里的简单几笔快速生成精确运动控制的视频

LivePortrait：快手视频驱动照片或视频，可以复制面部表情

Champ:阿里发布的人物图片+视频转换为合成视频

Hallo:复旦大学音频+人脸图像=视频生成模型
文字处理
多模处理
VASA-1：实时音频驱动的超逼数字人说话面部视频生成技术

EchoMimic:阿里的数字人生成，语音和视频合成

MuseTalk：腾讯的AI数字人口型同步工具
动态记忆和自我反思
Reflexion：具有动态记忆和自我反思的自主代理

百度生产一个反思功能代码python
论文精选
2023年4月的12篇AI论文推荐

2023年12月论文推荐

论文解读

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
大模型LLM
本地搭建私有大模型平台

Stability AI发布AI音频模型Stable Audio Open，音乐制作

通义千问：qwen

Qwen2：阿里通义千问2.0出来了，大模型升级了

huggingface的模型文件的目录结构
AIAgent
新一代AI模型Claude 3：有大学生智商，全面超越GPT-4

FastChat——一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台

谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3

LangChain-Chatchat (原 Langchain-ChatGLM)

MaxKB本地私有大模型部署

YOLO v10视觉目标检测算法本地端部署

Fay数字人框架助理版

百度开源 / Senta - 情感分析旨

Moshi：法国的ai研究者Kyutai推出开源实时语音多模态模型

GraphRAG：微软开源的下一代 RAG 技术

Move AI 推出 Move API，实现 2D 视频转 3D 运动数据

Cloudflare 推出一键阻止 AI 机器人的新工具

腾讯开源混元 Captioner 模型，优化文生图数据集生成

改变答题顺序会显著降低大模型准确率

OpenDevin：卡内基梅隆大学教授创立 All Hands AI，推出开源 AI 软件代理 OpenDevin

漆远创立无限光年，获阿里投资进军可信大模型赛道

阿里发布 FunAudioLLM 开源项目，推出 SenseVoice 和 CosyVoice 两大语音模型

快手文生图大模型 Kolors 宣布开源

商汤科技发布 InternLM-XComposer2.5 视觉语言模型

穹彻智能推出具身大脑 Noematrix Brain，聚焦操作物理常识与行为决策

华中科技大学等团队推出 Holmes-VAD，实现视频异常检测与解释

可灵AI/Kling：快手视频生成大模型可灵 AI Kling

彻底改变语言模型：全新架构TTT，ML模型代替RNN隐藏状态

新型TTT架构诞生，能否取代Transformer和Mamba成为最强大模型？

DG4D/DreamGaussian4D：四维建模及运动控制模型

CosyVoice:阿里的语音生成，支持多语言、音色和情感控制

SenseVoice ：阿里语音识别、语种识别、情感识别、声学事件分类或检测

Seed-TTS：字节的的语音生成，太逼真太形象了

Fish-Speech：开源的TTS项目，语音生成

ollama:大模型运行平台，支持cpu运行大模型

当实时数字人遇上LLM

CMD 下的基本指令

语音对话大模型：借助阿里的FunAudioLLM搭建语音对话模型

CogVideo：智谱版Sora开源爆火，4090单卡运行，A6000可微调
功能模块

暂无章节

新型TTT架构诞生，能否取代Transformer和Mamba成为最强大模型？

作者：好邻居发布时间：2024-07-10 10:12:02

阅读： 123

正文

斯坦福、UCSD、UC伯克利和Meta了推出TTT大语言模型，一种全新大语言模型（LLM）架构，或将取代最火的Transformer和Mamba。

TTT通过对输入token进行梯度下降，压缩上下文，这种方法被称为“测试时间训练层（Test-Time-Training layers，TTT）”。TTT层直接替代了注意力机制，实现了具有表现力记忆的线性复杂度架构。

来自斯坦福、UCSD、UC伯克利和Meta的研究团队设计了TTT，用机器学习模型取代了RNN的隐藏状态。这个研究了一年多的项目，或将改变我们的语言模型方法。

结果显示，TTT-Linear和TTT-MLP赶超或击败了Transformer和Mamba。研究人员Xiaolong Wang表示：“不敢相信，我们真的做到了。”

未来，TTT不仅适用于语言建模，甚至还可用于长视频建模，对帧进行密集采样，这对于TTT层来说前景广阔。

TTT研发历史：五年构想，一朝实现

2020年，OpenAI的缩放定律显示LSTM无法有效使用长上下文，Mamba虽有改进，但仍存在相似问题。

TTT的构想已超过5年，但团队在过去1.5年中才开始全力研发，目标是开发具有线性复杂度和更强隐藏状态的新LLM架构。

传统序列模型存储历史上下文于隐藏状态中，像Mamba的RNN层会压缩为固定大小状态，尽管效率高，但受限于表达能力。

团队想法是，将上下文压缩到模型权重中，就像LLM处理互联网数据一样，增强表达能力，保持隐藏状态的固定大小。

研究采用自监督学习，更新隐藏状态权重，对每个token进行梯度下降。隐藏状态只存在于端到端架构中的一层，其他组件如QKV投影矩阵通过标准交叉熵目标函数学习。

TTT层作为信息压缩和模型记忆机制，直接替代Transformer中的自注意力层，通过表达性记忆解锁线性复杂性架构。

在125M到1.3B参数规模的大模型对比中，TTT-Linear和TTT-MLP击败了Transformer和Mamba，展现了更低困惑度和更少FLOP，并且更好利用长上下文。

为提升TTT层的高效性，研究团队采取了两项创新措施。

首先，类似于常规训练中的mini-batch，他们在TTT中使用mini-batch token进行梯度步进，以实现更好的并行性。

其次，团队为每个TTT mini-batch操作开发了一种对偶形式，充分利用现代GPU和TPU。该方法输出与原始实现相当，但训练速度提升了5倍以上。

TTT层在实际运行时间中表现优异。下图显示，TTT-Linear在8k上下文中比Transformer更快，并与Mamba相当，且FLOP更少。TTT层不仅克服了RNN的局限，还实现了线性复杂度与高效运行时间的结合。

TTT的研究方法：突破与创新

自注意力机制的隐藏状态是一个随时间线性增长的Key-Value缓存列表。其更新规则将当前的KV元组添加到列表中，输出规则扫描所有元组，形成注意力矩阵。这虽然不需要压缩历史上下文，但处理时间会随上下文长度线性增长。为保持长上下文的高效和表现力，研究人员提出了一种新的压缩启发式方法。

TTT层的隐藏状态是一个模型，更新规则是自监督学习的一步梯度下降。具体来说，隐藏状态相当于模型的权重，这个模型可以是线性模型、小型神经网络等。输出规则则是由更新后的模型对输入数据进行预测。更新规则在自监督损失上进行梯度下降，选择重构图片作为自监督损失，使模型在部分信息图片中重构出图片。

TTT层与RNN层和自注意力机制类似，可以将输入序列映射到输出序列。每个输入序列训练一个不同的权重序列，因此被称为测试时间训练层（TTT）。TTT层与现有的序列建模层一样，可以在任何更大的神经网络架构中替换它们。

在TTT层的训练中，前向传播和后向传播过程相似。训练方式与任何其他Transformer模型相同，可以使用相同的数据、方法和目标（如下一个token预测）来优化网络的其他部分参数。训练更大的神经网络称为外循环，而在每个TTT层内训练权重称为内循环。内循环优化的是模型f的参数，外循环优化的是网络其他部分的参数。

TTT的关键是自监督任务，它决定了从测试序列中学习的特征类型。研究人员直接优化自监督任务以实现下一个token预测的最终目标。通过添加外循环参数，使这个任务可学习。最新的自监督损失包含了内循环优化的参数，外循环则优化损失函数的超参数。

在实际应用中，TTT层在浮点运算（FLOP）方面已经非常高效。为了进一步提升效率，研究人员提出了mini-batch梯度下降和对偶形式。mini-batch梯度下降通过一次并行计算多个梯度，提升了并行化效率。对偶形式在mini-batch结束时计算更新规则，避免了大量内存占用和I/O成本。

TTT层的两种变体分别是TTT-Linear和TTT-MLP。TTT-Linear采用线性模型，而TTT-MLP则采用两层MLP，类似于Transformer的MLP结构。TTT-MLP在隐藏维度上是输入维度的四倍，并包含层归一化和残差连接，以提升稳定性。

研究表明，具有线性模型和batch GD的TTT层等同于线性注意力，证实了TTT层在不同实例化下的广泛适用性。研究人员通过创新设计，实现了TTT层在长上下文处理中的卓越性能，提供了大语言模型发展的新方向。

TTT的实验结果：卓越性能验证

研究人员通过与Transformer和Mamba进行比较，评估了TTT-Linear和TTT-MLP的性能。实验使用了The Pile数据集，执行了2k和8k上下文长度的标准实验。

在2k上下文中，TTT-Linear、Mamba和Transformer表现相当，TTT-MLP在较大的FLOP预算下稍差。尽管TTT-MLP在每个模型大小上复杂度更好，但额外的FLOP成本抵消了优势。在8k上下文中，TTT-Linear和TTT-MLP明显优于Mamba，即使是使用Transformer架构的TTT-MLP在1.3B参数规模下也略胜一筹。

为了评估长上下文处理能力，研究人员使用了Pile的子集Books，对1k到32k上下文长度进行了实验。在2k上下文中，Mamba表现略好于TTT-Linear。而在32k上下文中，TTT-Linear和TTT-MLP均优于Mamba，即使采用Transformer架构的TTT-MLP在32k上下文中也比Mamba表现稍好。

研究人员将上下文长度作为一个可以选择的超参数，并选择了困惑度中的argmin。在10^20 FLOP后，TTT-Linear和TTT-MLP的性能几乎完全重叠，而Mamba和TF Finetune的性能也大部分重叠。TF Finetune的性能明显优于TF Pretrain，因为它受益于长上下文，而不会在训练FLOP中产生极大的成本。

LLM训练和推理可以分解为前向、后向和生成。由于前向和后向都可以并行化，研究人员使用了对偶形式。生成新token（解码）是顺序的，因此使用了原始形式。实验在TPU上运行，结果显示，在上下文为2k的情况下，TTT-Linear每次迭代训练需要0.27秒，比Transformer快10%。

为了公平比较，研究人员还将方法在GPU上运行，证明了mini-batch TTT和对偶形式的有效性。前向内核批大小为16的延迟实验显示，所有模型参数均为1.3B（Mamba为1.4B）。随着上下文长度增加，Transformer每个token的时间线性增长，但TTT和Mamba大致保持不变。

作者介绍：TTT项目背后的团队

UCSD助理教授Xiaolong Wang是TTT研究的主要推动者之一。他在研究提交后发推表示祝贺，并回顾了这一项目的历程，提到TTT的构想已有五年时间，但正式研究持续了一年半。

Yu Sun是斯坦福大学的博士后，师从Carlos Guestrin、Tatsu Hashimoto和Sanmi Koyejo。他在UC Berkeley获得了电子工程科学博士学位，导师是Alyosha Efros和Moritz Hardt，并在康奈尔大学获得学士学位。Yu Sun专注于测试时间训练（TTT）的算法框架，他在2022年11月与Xinhao Li共同启动了这一项目，并在2023年6月起全职负责该项目。

Xinhao Li是UCSD的博士生，导师是Xiaolong Wang教授。他的研究兴趣主要是深度学习和计算机视觉。在斯坦福大学Tatsunori Hashimoto教授团队中担任访问学生期间，与Yu Sun博士合作。在2024年3月之前，他是TTT早期代码库的主要贡献者。

Karan Dalal是UC Berkeley的本科生，他于2023年6月全职加入TTT项目，与Xinhao Li合作共同领导当前代码库的开发工作。

结语：展望未来的TTT

尽管TTT的原理复杂，但其核心在于提升长文本处理的效率和效果。当前，Transformer是主流架构，但在处理长文本时效率低下，而TTT有效解决了这一问题。

AI技术日新月异，正因有科学家的不断研究，我们才能在这些基础上构建更好的应用。TTT的出现，预示着大语言模型发展的新方向，为未来的技术进步打下坚实基础。

上一篇: 没有了

下一篇: 没有了

圣贤书院