上集节目,广密在OpenAI o1问世之前,准确地预言了代号为“Strawberry”(草莓)的项目走向,以及它背后暗示的AGI范式已经转移,强化学习开启了新赛道。这集节目录制在o1问世之后,我第一时间和边塞科技创始人、清华叉院信息研究院助理教授,同时也是前OpenAI研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了o1模型,并且分享了只有内部视角才能看见的真实的OpenAI。我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 01:50 2019年在OpenAI做研究员 03:04 那个年代所有PHD都希望去Google Brain和DeepMind 03:46 OpenAI o1-preview初体验,很意外在用户使用端做这么大规模的推理 07:20 pre-training(预训练)能挖的金矿越来越少,以强化学习为基础的post-training(后训练)是另一个大金矿,使迈向AGI的梯子多了几节 09:00 o1-preview版本是GPT-3时刻,到没到ChatGPT时刻要看正式版本 10:33 o1应该核心关注两个要点和背后的技术原理 13:54 强化学习能否探索出Scaling Law有希望,但很复杂 15:06 强化学习三要素:reward model+搜索和探索+prompt,每一块都很难 16:42 2014年开始,UC Berkeley集体转向,押注强化学习 19:36 RL算法的演进:从DQN(Deep Q-Network)到PPO(Proximal Policy Optimization) 23:45 相信会带来通用能力而不是垂类能力提升 24:47 长文本是实现AGI的第一步,推理能力是第二步 29:57 通过o1-preview能反向复原哪些技术细节? 34:00 reward model不太可能有一个单独的小组闭着眼睛训练,是耦合的 38:30 思维链、安全、幻觉和算力 41:25 为什么这么项目叫“Q*”?后来又叫“草莓”?梗都很有意思 49:49 o1不代表垂直模型,依然相信会出现全能的大统一模型 57:57 关于Scaling Law,2019年OpenAI内部讨论的细节 01:00:26 2019年的OpenAI处于“闭着眼睛挖矿的状态” 01:03:20 OpenAI当年如何做管理:搞大新闻、发博客,KPI是博客关注量 01:10:28 2020年离开OpenAI后悔吗?o1发布前的预言单集:AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4【更多信息】联络我们:微博@张小珺-Benita,小红书@张小珺jùn更多信息欢迎关注公众号:张小珺
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
NPR News: 12-08-2025 2AM EST
08 Dec 2025
NPR News Now
NPR News: 12-07-2025 11PM EST
08 Dec 2025
NPR News Now
NPR News: 12-07-2025 10PM EST
08 Dec 2025
NPR News Now
Meidas Health: AAP President Strongly Pushes Back on Hepatitis B Vaccine Changes
08 Dec 2025
The MeidasTouch Podcast
Democrat Bobby Cole Discusses Race for Texas Governor
07 Dec 2025
The MeidasTouch Podcast
Fox News Crashes Out on Air Over Trump’s Rapid Fall
07 Dec 2025
The MeidasTouch Podcast