跨国串门儿计划

#269. OpenAI研究副总裁：揭秘GPT-5 如何思考与强化学习的幕后故事

22 Oct 2025

Audio

Description

📝 本期播客简介本期我们克隆了知名播客《The MAD Podcast》的精彩内容，主持人Matt Turck与OpenAI研究副总裁Jerry Tworek的深度对话。Jerry Tworek不仅是OpenAI的关键人物，更是被Metas评选为世界顶尖的人工智能研究者之一。他将带我们深入探索人工智能最核心的“推理”能力。从宏观层面，Jerry将揭示当ChatGPT“思考”时，背后究竟发生了什么，以及“思维链”如何让模型像人类一样解决复杂问题。他还会分享OpenAI如何平衡模型的思考时长与用户体验，并回顾其推理能力从O1到O3再到GPT-5的演进历程。对话中，Jerry详细阐释了强化学习（RL）和人类反馈强化学习（RLHF）的奥秘，用生动的“训狗”比喻解释了奖励机制，并探讨了智能体、环境、策略等核心概念。我们还将了解到OpenAI独特的内部文化：他们如何聚焦少数几个核心项目、保持研究部门的高度透明，以及如何以惊人的速度迭代产品。Jerry还分享了他从波兰数学天才到华尔街交易员，最终投身OpenAI，主导机器人和强化学习项目的个人经历。节目还将触及AI对齐、奖励滥用等前沿议题，并探讨强化学习在编程竞赛（如ICPC）中的惊人表现，以及它如何推动我们走向通用人工智能的未来。这是一场关于AI核心技术、OpenAI幕后故事与个人成长轨迹的全面对话，不容错过。翻译克隆自：How GPT-5 Thinks — OpenAI VP of Research Jerry Tworek👨‍⚕️ 本期嘉宾Jerry Tworek，OpenAI研究副总裁，被Metas评选为世界顶尖人工智能研究者之一。他主导了OpenAI的机器人和强化学习项目，并推动了模型推理能力的发展。⏱️ 时间戳播客开场与核心主题00:00 播客简介：AI推理、强化学习与OpenAI幕后故事01:32 Jerry Tworek：O1到GPT-5的演进与AI的集体使命02:01 Matt Turck：介绍嘉宾Jerry Tworek及本期核心议题AI推理的深度解析02:33 什么是AI推理：从“思考过程”到寻找未知答案03:50 思维链（Chain of Thought）：模型如何像人类一样“说出”思考过程06:17 模型思考时长：质量与用户体验的平衡与权衡08:06 推理能力演进：O1的演示，O3的颠覆，GPT-5的迭代Jerry Tworek的个人传奇10:36 波兰数学天才到华尔街交易员：早年经历与职业转折15:01 发现强化学习：DQN的震撼与加入OpenAI的契机16:32 OpenAI早期：Dota 2项目与机器人灵巧操控的挑战OpenAI的独特文化与高效运作19:03 Jerry的一天：与研究员的深度交流与研究计划的打磨19:56 研究优先级：少数核心项目与自下而上的协作模式22:16 协作与透明：研究部门的“人人皆知”文化23:52 快速发布：OpenAI的势头、人才与激情驱动的迭代速度25:21 内部工具使用：Codex写代码，ChatGPT辅助日常工作强化学习（RL）核心机制26:13 预训练与强化学习：现代AI系统的两大支柱28:24 强化学习入门：用“训狗”比喻奖励机制30:05 RL术语解析：智能体、环境、行动、奖励与策略31:00 强化学习演进：从深度强化学习到预训练的赋能33:42 GPT-4与RLHF：人类反馈如何成就“GPT时刻”37:20 RLHF细节：AI训练师与数据标注的演变38:24 无监督学习与预训练：数据本身的学习与表示RL前沿与挑战40:01 GRPO与美国实验室：开源算法如何加速AI研究42:34 规模化强化学习：为何它比预训练更复杂更难44:03 生成式AI与智能体：模型如何自主思考更长时间46:14 AI对齐：强化学习在引导模型行为中的作用与挑战47:57 奖励滥用：激励系统中的“打地鼠”游戏RL的应用与通用人工智能（AGI）的未来48:49 RL在数学编程的惊人表现：ICPC世界总决赛的胜利52:44 RL推广至其他领域：评估反馈与奖励滥用的持续挑战55:06 通用人工智能之路：预训练、RL与未来模型的自我改进57:17 AGI的哲学思考：纯粹RL与LLM的辩论59:08 结语：感谢Jerry Tworek的精彩分享🌐 播客信息补充本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的使用 AI 进行翻译，因此可能会有一些地方不通顺；如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes

🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Other recent transcribed episodes

Transcribed and ready to explore now

13:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

Comments

There are no comments yet.

Please log in to write the first comment.

Report any issue

跨国串门儿计划

#269. OpenAI研究副总裁：揭秘GPT-5 如何思考与强化学习的幕后故事

This episode hasn't been transcribed yet

Other recent transcribed episodes

13:00H | 21 DIC 2025 | Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

Sign in to Audioscrape

Share this moment