📝 本期播客简介本期我们克隆了知名播客《The MAD Podcast》的精彩内容,主持人Matt Turck与OpenAI研究副总裁Jerry Tworek的深度对话。Jerry Tworek不仅是OpenAI的关键人物,更是被Metas评选为世界顶尖的人工智能研究者之一。他将带我们深入探索人工智能最核心的“推理”能力。从宏观层面,Jerry将揭示当ChatGPT“思考”时,背后究竟发生了什么,以及“思维链”如何让模型像人类一样解决复杂问题。他还会分享OpenAI如何平衡模型的思考时长与用户体验,并回顾其推理能力从O1到O3再到GPT-5的演进历程。 对话中,Jerry详细阐释了强化学习(RL)和人类反馈强化学习(RLHF)的奥秘,用生动的“训狗”比喻解释了奖励机制,并探讨了智能体、环境、策略等核心概念。我们还将了解到OpenAI独特的内部文化:他们如何聚焦少数几个核心项目、保持研究部门的高度透明,以及如何以惊人的速度迭代产品。Jerry还分享了他从波兰数学天才到华尔街交易员,最终投身OpenAI,主导机器人和强化学习项目的个人经历。节目还将触及AI对齐、奖励滥用等前沿议题,并探讨强化学习在编程竞赛(如ICPC)中的惊人表现,以及它如何推动我们走向通用人工智能的未来。这是一场关于AI核心技术、OpenAI幕后故事与个人成长轨迹的全面对话,不容错过。翻译克隆自:How GPT-5 Thinks — OpenAI VP of Research Jerry Tworek👨⚕️ 本期嘉宾Jerry Tworek,OpenAI研究副总裁,被Metas评选为世界顶尖人工智能研究者之一。他主导了OpenAI的机器人和强化学习项目,并推动了模型推理能力的发展。⏱️ 时间戳播客开场与核心主题00:00 播客简介:AI推理、强化学习与OpenAI幕后故事01:32 Jerry Tworek:O1到GPT-5的演进与AI的集体使命02:01 Matt Turck:介绍嘉宾Jerry Tworek及本期核心议题AI推理的深度解析02:33 什么是AI推理:从“思考过程”到寻找未知答案03:50 思维链(Chain of Thought):模型如何像人类一样“说出”思考过程06:17 模型思考时长:质量与用户体验的平衡与权衡08:06 推理能力演进:O1的演示,O3的颠覆,GPT-5的迭代Jerry Tworek的个人传奇10:36 波兰数学天才到华尔街交易员:早年经历与职业转折15:01 发现强化学习:DQN的震撼与加入OpenAI的契机16:32 OpenAI早期:Dota 2项目与机器人灵巧操控的挑战OpenAI的独特文化与高效运作19:03 Jerry的一天:与研究员的深度交流与研究计划的打磨19:56 研究优先级:少数核心项目与自下而上的协作模式22:16 协作与透明:研究部门的“人人皆知”文化23:52 快速发布:OpenAI的势头、人才与激情驱动的迭代速度25:21 内部工具使用:Codex写代码,ChatGPT辅助日常工作强化学习(RL)核心机制26:13 预训练与强化学习:现代AI系统的两大支柱28:24 强化学习入门:用“训狗”比喻奖励机制30:05 RL术语解析:智能体、环境、行动、奖励与策略31:00 强化学习演进:从深度强化学习到预训练的赋能33:42 GPT-4与RLHF:人类反馈如何成就“GPT时刻”37:20 RLHF细节:AI训练师与数据标注的演变38:24 无监督学习与预训练:数据本身的学习与表示RL前沿与挑战40:01 GRPO与美国实验室:开源算法如何加速AI研究42:34 规模化强化学习:为何它比预训练更复杂更难44:03 生成式AI与智能体:模型如何自主思考更长时间46:14 AI对齐:强化学习在引导模型行为中的作用与挑战47:57 奖励滥用:激励系统中的“打地鼠”游戏RL的应用与通用人工智能(AGI)的未来48:49 RL在数学编程的惊人表现:ICPC世界总决赛的胜利52:44 RL推广至其他领域:评估反馈与奖励滥用的持续挑战55:06 通用人工智能之路:预训练、RL与未来模型的自我改进57:17 AGI的哲学思考:纯粹RL与LLM的辩论59:08 结语:感谢Jerry Tworek的精彩分享🌐 播客信息补充本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的使用 AI 进行翻译,因此可能会有一些地方不通顺;如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News