📝 本期播客简介本期克隆了 AI Engineer 的一场关于强化学习的 Workshop 他们邀请到了 Unsloth 的作者 Daniel Han,为我们深入浅出地拆解了当下大语言模型训练中最前沿、也最复杂的领域:强化学习(RL)。Daniel 从 Llama 模型泄露引发的开源浪潮讲起,回顾了开源社区在追赶闭源模型时经历的“开源之旱”,并详细阐述了从预训练、监督微调(SFT)到强化学习(RLHF/GRPO)的完整技术路径。他用 Yann LeCun 著名的“蛋糕比喻”生动解释了不同训练阶段的意义,并核心拆解了 PPO 与 DeepSeek-R1 所使用的 GRPO 算法的异同,揭示了后者如何通过扔掉“价值模型”实现效率翻倍。更重要的是,他反复强调了一个反直觉的观点:强化学习的成功很大程度上“全靠运气”,而真正的难点在于设计精巧的“奖励函数”。最后,他还分享了关于模型量化的独到见解,并提出了一个惊人论断:由于数值精度的物理限制,我们可能正迎来 GPU 性能飞跃的“终局之战”。这不仅是一堂硬核的技术课,更是一场充满洞见的行业观察。👨⚕️ 本期嘉宾Daniel Han,开源项目 Unsloth 的作者。Unsloth 是一个广受欢迎的开源库,致力于让大语言模型的微调训练速度提升 2 倍,内存占用减少 70%,极大地降低了个人和小型团队进行模型训练的门槛。Unsloth 在 Hugging Face 上每月下载量超过千万次,并与 Google、Meta、Mistral 等顶级团队合作,为 Llama、Gemma、Phi 等主流开源模型提供修复与优化。📒 文字版精华见微信公众号(点击跳转)🌟 精彩内容🎂 AI 蛋糕论:预训练是蛋糕,SFT 是糖霜,强化学习是樱桃Daniel 引用 Yann LeCun 的经典比喻,形象地解释了当前大模型训练的三个核心阶段:海量数据无监督预训练构成了模型能力的基础(蛋糕);高质量的指令微调让模型变得有用且听话(糖霜);而强化学习则是那颗最顶端的、能带来能力飞跃的樱桃。“无监督学习或者说预训练,就是蛋糕本身,没那么好吃。然后监督微调是蛋糕上的糖霜,就好一点了。而强化学习则是那颗樱桃。”🏜️ 开源之旱:从 O1 预览的绝望到 DeepSeek-R1 的希望Daniel 回顾了开源社区的一段“黑暗时期”:2024年9月 OpenAI 发布 O-1 预览版,其强大的能力让整个开源社区陷入了长达四个月的“万念俱灰”,不知如何追赶。直到 DeepSeek-R1 的出现,才证明了通过强化学习等开源方法,同样可以训练出世界一流的模型。“接下来的四个月里,开源社区可以说是万念俱灰,因为我们什么也做不了...然后,就在2025 年 1月,DeepSeek R1 横空出世...整个世界对开源的看法才因此改变。”💡 更聪明的强化学习 GRPO:扔掉价值模型,效率翻倍Daniel 核心拆解了 PPO 和 GRPO 两种强化学习算法的区别。他指出,GRPO 最聪明的创新在于彻底移除了计算成本高昂的“价值模型”,转而通过对单次推理进行多次采样(rollout)并计算统计数据(Z-score)来作为基线,极大地节省了计算资源和参数,提高了训练效率。“而 GRPO,就是 DeepSeek R1里定义的算法,很聪明地删掉了一个东西——价值模型。直接不要了...你就节省了参数,节省了计算资源,效率也高得多。”🎲 强化学习的玄学:我们只是在祈祷,全靠运气Daniel 反复强调,强化学习的初始阶段充满不确定性,模型可能长时间输出无意义的结果(零奖励)。突破的关键往往在于“运气”——模型凭着极小的概率随机生成了一个好的答案,算法捕捉到这个信号后,再通过最大化其出现概率来强化这种行为。“就凭运气,就凭运气,你知道,你会有那么一点点小小的概率...突然模型就说出了‘四’...我们就让这个概率变得更高。就这样。这就是 GRPO 的全部。”📉 GPU 速度的终局:为什么 Blackwell 可能是最后一代性能飞跃?在谈到量化时,Daniel 提出了一个大胆的预测:GPU 的性能飞跃即将终结。他认为,过去 GPU 速度的大幅提升主要源于数值精度的降低(从 32 位到 4 位浮点数)。如今我们已逼近这个方法的物理极限,未来很难再通过类似方式获得指数级的性能增长。“未来,GPU 不会再变快了。所以,也许,如果有人想买 Blackwell GPU,那可能……你可能应该买。它很可能不会再变快了。”🌐 播客信息补充翻译克隆自:[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的使用 AI 进行翻译,因此可能会有一些地方不通顺;如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News