今天这集是我和广密【全球大模型季报】第4集。这期2024年Q3季报,提前和大家见面。我们正进入的9月会是AGI的一个大月,OpenAI造势已久且绝密的项目“草莓(Strawberry)”将在不久后揭开它神秘的面纱。此外,Anthropic也会推出Claude 3.5 Opus,这两个模型将是AGI进程是否顺利的关键风向标。这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移,self-play RL(强化学习)开启了新赛道。大部分人还没意识到,在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)。只不过,这个范式转移还未形成共识。Self-play RL到底是什么?它如何有别于传统路径?它能成为继续Scaling Law的一把神奇钥匙吗?这集节目是关于self-play RL的一篇高质量科普,也希望为大模型从业者带来方向性的启发。除了self-play RL,我们着重探讨了硅谷一级市场的明星赛道(Coding、视频生成、通用机器人),以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态,并且能持续给大家带来启示。本集是《张小珺Jùn|商业访谈录》和《海外独角兽》的串台节目。我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)坏的推演猜测,GPT-5不乐观;好的推演猜测,RL开启新赛道 02:30 语言模型预训练的范式或许遇瓶颈,模型scaling边际效益开始递减 05:21 为什么不一定能支持模型在GPT-4o基础上大幅跃升?现在处于“真空死亡地带”? 06:43 我最担心的是,纯靠语言模型的经典Scaling Law /Pre train这个物理规律遇到瓶颈,或者在更大参数比如2-3T以上的情况下开始失效了 09:37 如果scaling law在模型变大的过程中不work,现在有三条潜在路径:1、多模态尤其是视觉(但还没有证据说能从视觉模态训练涌现智能能力); 2、10万卡集群(但10万卡集群充分互联的难度比预期难,可能是全人类最难的项目之一); 3、强化学习self-play RL(这是范式级别的大转变!) 12:53 如果我是AI公司CEO,我会200%资源all in RL这条路 13:40 概念解释:Reinforcement Learning,简称RL,中文强化学习(Ilya用一句话概括强化学习:让AI用随机路径去尝试一个新任务,如果效果超出预期,就更新神经网络的权重让AI记得多使用成功的实践,再开始下一次尝试) 19:05 代码和数学可以变得很强,能不能泛化到更多领域没有证据 22:39你也可以把语言和预训练比作人类基因组,携带着人类几千年进化的基因,强化学习RL就是人类成长的一生 24:55 必须很聪明的模型才能有能力做self-play RL的探索 27:07 Anthropic Claude 3.5是这一波标志性的产品,他们不搞Sora/搜索,主线是RL;业内少数人意识到RL的重要性是最近两个月 28:35 硅谷明星公司现阶段的资源投入?1-2家公司把RL当作最高优先级 28:56 2024年9月OpenAI和Anthropic即将要发布的,什么值得期待? 29:42 AGI范式大转移之下,还会有GPT-6和GPT-7吗?(可能明年会看到很小的模型比今天GPT-4o要聪明非常多,一个期待是实现AGI不一定需要巨量参数的模型) 30:33 新范式的困境和卡点 32:52 Character.AI出售给Google预示AGI竞赛上半场结束,下半场开始,创始人Noam从Google进入self-play RL下半场 34:36 新范式下,还需要那么多GPU吗?很多人关心英伟达股价 37:06 AGI范式转移只在最核心的researcher中有共识,几百人,还没扩散 38:55 Claude 3.5 Sonnet显著提升,带动了编程工具Cursor的火爆出圈 40:08 OpenAI在造势的草莓、Q*,猜测背后都是强化学习RL 41:55 国内公司应该应该all in 200%跟进RL 42:44 语言模型和RL是乘级关系硅谷AI一级市场的四个明星赛道 45:12 硅谷的AI赛道:围绕LLM周边有3-4个圈,搜索、代码Coding、视频、机器人 1、Coding:在硅谷出现了4-5家独角兽(Devin、Augment 、Magic、Poolside,都已经20-30亿美元估值),最近编程工具Cursor出圈 2、 视频:这个赛道诱人,但格局不稳定、决胜窗口长 3、通用机器人:想赌具身领域也有个OpenAI,现在是基础科学突破的问题,没看到在机器人领域的“通用泛化能力”出现 57:00 美国通用机器人的明星项目(Pi、The Bot是业界公认最头部的项目,除此之外融资金额很大、声量也比较高的是Skild AI、Figure AI) 58:31 国内vs硅谷机器人:硅谷投robot foundation model一个大脑,像Andorid;在国内投整机,OV和小米 01:01:56 LLM->多模态->具身智能->世界模型,这是AI发展路径 01:05:54 LLM vs 移动互联网,叙事逻辑是什么?哪些明线与暗线? 01:07:04 有没有可能,今天不做强化学习的公司未来都跑不出来 01:08:05 站在现在,重新评论一下中国LLM?“月亮和六便士”OpenAI和科技巨头 01:12:37 OpenAI 1、有点浪费技术领先的红利,产品没接住 2、联合创始人Greg Brockman、John Schumann离职 3、Ilya离开应该是bet on两个路线(多模态/强化学习,大概率是RL) 01:17:10 Q*和草莓和RL应该是一件事,草莓是代号,RL是方法 01:18:07 回答红杉美国合伙人 David Cahn发布最新文章《AI’s $600B Question》 01:20:00 在2024年Q3,AI叙事还有哪些非共识? 01:22:45 Character.AI之后,哪些AI公司还会被收购?做个预测 01:23:38 2000年互联网hype破灭后只留下Amazon一家公司,今天AI hype如果破灭了,谁是下一个Amazon? 01:24:24 AGI第一幕是科技巨头受益,第二幕还没完全展开【全球大模型季报】系列2023年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观2024年Q1:和广密聊AGI大基建时代:电+芯片=产出智能2024年Q2:口述全球大模型这半年:Perplexity突然火爆和尚未爆发的AI应用生态【更多信息】联络我们:微博@张小珺-Benita,小红书@张小珺jùn更多信息欢迎关注公众号:张小珺
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
NPR News: 12-08-2025 2AM EST
08 Dec 2025
NPR News Now
NPR News: 12-07-2025 11PM EST
08 Dec 2025
NPR News Now
NPR News: 12-07-2025 10PM EST
08 Dec 2025
NPR News Now
Meidas Health: AAP President Strongly Pushes Back on Hepatitis B Vaccine Changes
08 Dec 2025
The MeidasTouch Podcast
Democrat Bobby Cole Discusses Race for Texas Governor
07 Dec 2025
The MeidasTouch Podcast
Fox News Crashes Out on Air Over Trump’s Rapid Fall
07 Dec 2025
The MeidasTouch Podcast