跨国串门儿计划

#180. AI Engineer研讨会：强化学习、核方法、推理、量化与智能体 — Daniel Han

21 Jul 2025

Audio

Description

📝 本期播客简介本期克隆了 AI Engineer 的一场关于强化学习的 Workshop 他们邀请到了 Unsloth 的作者 Daniel Han，为我们深入浅出地拆解了当下大语言模型训练中最前沿、也最复杂的领域：强化学习（RL）。Daniel 从 Llama 模型泄露引发的开源浪潮讲起，回顾了开源社区在追赶闭源模型时经历的“开源之旱”，并详细阐述了从预训练、监督微调（SFT）到强化学习（RLHF/GRPO）的完整技术路径。他用 Yann LeCun 著名的“蛋糕比喻”生动解释了不同训练阶段的意义，并核心拆解了 PPO 与 DeepSeek-R1 所使用的 GRPO 算法的异同，揭示了后者如何通过扔掉“价值模型”实现效率翻倍。更重要的是，他反复强调了一个反直觉的观点：强化学习的成功很大程度上“全靠运气”，而真正的难点在于设计精巧的“奖励函数”。最后，他还分享了关于模型量化的独到见解，并提出了一个惊人论断：由于数值精度的物理限制，我们可能正迎来 GPU 性能飞跃的“终局之战”。这不仅是一堂硬核的技术课，更是一场充满洞见的行业观察。👨‍⚕️ 本期嘉宾Daniel Han，开源项目 Unsloth 的作者。Unsloth 是一个广受欢迎的开源库，致力于让大语言模型的微调训练速度提升 2 倍，内存占用减少 70%，极大地降低了个人和小型团队进行模型训练的门槛。Unsloth 在 Hugging Face 上每月下载量超过千万次，并与 Google、Meta、Mistral 等顶级团队合作，为 Llama、Gemma、Phi 等主流开源模型提供修复与优化。📒 文字版精华见微信公众号（点击跳转）🌟 精彩内容🎂 AI 蛋糕论：预训练是蛋糕，SFT 是糖霜，强化学习是樱桃Daniel 引用 Yann LeCun 的经典比喻，形象地解释了当前大模型训练的三个核心阶段：海量数据无监督预训练构成了模型能力的基础（蛋糕）；高质量的指令微调让模型变得有用且听话（糖霜）；而强化学习则是那颗最顶端的、能带来能力飞跃的樱桃。“无监督学习或者说预训练，就是蛋糕本身，没那么好吃。然后监督微调是蛋糕上的糖霜，就好一点了。而强化学习则是那颗樱桃。”🏜️ 开源之旱：从 O1 预览的绝望到 DeepSeek-R1 的希望Daniel 回顾了开源社区的一段“黑暗时期”：2024年9月 OpenAI 发布 O-1 预览版，其强大的能力让整个开源社区陷入了长达四个月的“万念俱灰”，不知如何追赶。直到 DeepSeek-R1 的出现，才证明了通过强化学习等开源方法，同样可以训练出世界一流的模型。“接下来的四个月里，开源社区可以说是万念俱灰，因为我们什么也做不了...然后，就在2025 年 1月，DeepSeek R1 横空出世...整个世界对开源的看法才因此改变。”💡 更聪明的强化学习 GRPO：扔掉价值模型，效率翻倍Daniel 核心拆解了 PPO 和 GRPO 两种强化学习算法的区别。他指出，GRPO 最聪明的创新在于彻底移除了计算成本高昂的“价值模型”，转而通过对单次推理进行多次采样（rollout）并计算统计数据（Z-score）来作为基线，极大地节省了计算资源和参数，提高了训练效率。“而 GRPO，就是 DeepSeek R1里定义的算法，很聪明地删掉了一个东西——价值模型。直接不要了...你就节省了参数，节省了计算资源，效率也高得多。”🎲 强化学习的玄学：我们只是在祈祷，全靠运气Daniel 反复强调，强化学习的初始阶段充满不确定性，模型可能长时间输出无意义的结果（零奖励）。突破的关键往往在于“运气”——模型凭着极小的概率随机生成了一个好的答案，算法捕捉到这个信号后，再通过最大化其出现概率来强化这种行为。“就凭运气，就凭运气，你知道，你会有那么一点点小小的概率...突然模型就说出了‘四’...我们就让这个概率变得更高。就这样。这就是 GRPO 的全部。”📉 GPU 速度的终局：为什么 Blackwell 可能是最后一代性能飞跃？在谈到量化时，Daniel 提出了一个大胆的预测：GPU 的性能飞跃即将终结。他认为，过去 GPU 速度的大幅提升主要源于数值精度的降低（从 32 位到 4 位浮点数）。如今我们已逼近这个方法的物理极限，未来很难再通过类似方式获得指数级的性能增长。“未来，GPU 不会再变快了。所以，也许，如果有人想买 Blackwell GPU，那可能……你可能应该买。它很可能不会再变快了。”🌐 播客信息补充翻译克隆自：[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的使用 AI 进行翻译，因此可能会有一些地方不通顺；如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes

🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Other recent transcribed episodes

Transcribed and ready to explore now

13:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

Comments

There are no comments yet.

Please log in to write the first comment.

Report any issue

跨国串门儿计划

#180. AI Engineer研讨会：强化学习、核方法、推理、量化与智能体 — Daniel Han

This episode hasn't been transcribed yet

Other recent transcribed episodes

13:00H | 21 DIC 2025 | Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

Sign in to Audioscrape

Share this moment