「继续来聊“注意力”,不止技术,也有研发故事。」 (本期因录音 bug,音质有波动;不时出现“变声期”,请见谅。) 上期,我们与清华的两位博士生,肖朝军和傅天予,聊了稀疏注意力机制的改进,也以注意力为线索,串起了大模型的优化史 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)。上期主要聊了稀疏注意力。 这期,我们来聊注意力机制的另一大改进方向:线性注意力。 MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,01 就用到了他们开发的线性注意力机制,lightning attention。 本期,我邀请了这个项目的负责人,MiniMax 高级研究总监,负责 01 模型网络架构的钟怡然,来与我们一起聊研究线性注意力的研发过程。 钟怡然曾担任上海人工智能实验室青年科学家,是新架构探索组的 PI,也就是项目负责人;他在澳洲国立大学获得博士学位,师从李宏东教授和 Richard Hartley 院士。 在 2021 年,线性注意力还是一个“看起来很美好的泡泡”,怡然和团队就开始探索线性架构的实现。 当 2024 年年中,MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时,线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板,投了公司超过 80% 的研发资源。 当然,训练模型不是戏剧性的梭哈。在训 01 前,MiniMax 团队通过 3700 次预训练测试,去预测这种新架构在更大参数的模型是否也有好的表现。(这其中不少都是小规模实验。)这期节目,我们完整聊了这个过程。 在效率上线上,从计算方法推导,当序列非常长,线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上,也就是线性注意力的模型,能否和 Transformer 模型一样聪明,甚至更聪明。现在还没有谁能给出有绝对说服力的答案。 这也是之后 MiniMax 的技术进展,可能会揭晓的悬念。 本期嘉宾: 钟怡然,MiniMax 高级研发总监 时间线跳转: - MiniMax 开源:为什么第一个模型选了 01 05:46 开源是为了展示架构创新,吸引更多人才 08:20 开源后社区反馈集中在推理效率与多模态支持,MiniMax 把推理优化贡献到了开源框架 vLLM 中 10:20 开源要有影响力需要更多工作,MiniMax-01 当前开源版本参数过大,个人开发者确实参与受限 - MiniMax-01 中的线性注意力改进:7 混 1 结构,100 万 Token 序列长度下提速 2700 倍 13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序,将复杂度从二次降至线性 15:26 稀疏注意力(如NSA、Mobile)在小模型表现尚可,但线性注意力在参数规模扩大后优势显著 20:23 纯线性注意力在召回能力(如“大海捞针”任务)上存在缺陷,团队通过混合架构(每 7 层线性注意力加入 1 层 Softmax 注意力)优化 27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速,同时模型效果优于纯 Transformer 28:27 3700 次小模型实验验证架构可扩展性,扩大规模前要做充分验证 - 21 年开始的线性架构研发之旅:从“美好的泡泡”到 4560 亿参数大模型 30:24 2021 年开始做线性注意力研发时,它还是一个“美好的泡泡” 35:19 “我们是最懂线性注意力的人”,为什么这个模型不诞生在我们手上? 41:20 50% 的把握,投 80% 的资源 42:46 上规模后,发现了召回缺陷;一张大表,3700 个预训练任务 50:46 一个测试例子:MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5,可能和数据构造有关 52:52 线性架构也许是更适合推理模型的架构 01:00:51 线性架构能 work,仍是非共识 - “道心”之争 01:02:00 钟怡然坚信线性注意力是“无损优化”,混合架构效果甚至优于传统Transformer 01:11:23 MiniMax计划4月发布深度推理多模态模型,整合线性架构、原生多模态与强化学习 01:22:18 AGI愿景 vs 竞争驱动:DeepSeek 爆火后,但不改变产品是技术最大的证明 相关链接: 103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能 (https://www.xiaoyuzhoufm.com/episode/6668d95ebb0f9563f6302495?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 101:与王小川聊AIX医疗:通向“生命科学的数学原理” (https://www.xiaoyuzhoufm.com/episode/67aaefa541b8e4a63c93c03d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 103 期晚点聊图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g) 附录: QKV 计算:Query-Key-Value计算,注意力机制中用于生成上下文感知向量的核心步骤。 Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。 Jamba:由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。 vLLM:由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。 有损优化:以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。 无损优化:在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。 (另,更多关于线性注意力机制的术语也可见上期注释) 剪辑制作:Nick 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News