张小珺Jùn｜商业访谈录

73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

05 Sep 2024

Audio

Description

今天这集是我和广密【全球大模型季报】第4集。这期2024年Q3季报，提前和大家见面。我们正进入的9月会是AGI的一个大月，OpenAI造势已久且绝密的项目“草莓（Strawberry）”将在不久后揭开它神秘的面纱。此外，Anthropic也会推出Claude 3.5 Opus，这两个模型将是AGI进程是否顺利的关键风向标。这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移，self-play RL（强化学习）开启了新赛道。大部分人还没意识到，在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后，多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上：self-play RL（自博弈强化学习）。只不过，这个范式转移还未形成共识。Self-play RL到底是什么？它如何有别于传统路径？它能成为继续Scaling Law的一把神奇钥匙吗？这集节目是关于self-play RL的一篇高质量科普，也希望为大模型从业者带来方向性的启发。除了self-play RL，我们着重探讨了硅谷一级市场的明星赛道（Coding、视频生成、通用机器人），以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态，并且能持续给大家带来启示。本集是《张小珺Jùn｜商业访谈录》和《海外独角兽》的串台节目。我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）坏的推演猜测，GPT-5不乐观；好的推演猜测，RL开启新赛道 02:30 语言模型预训练的范式或许遇瓶颈，模型scaling边际效益开始递减 05:21 为什么不一定能支持模型在GPT-4o基础上大幅跃升？现在处于“真空死亡地带”？ 06:43 我最担心的是，纯靠语言模型的经典Scaling Law /Pre train这个物理规律遇到瓶颈，或者在更大参数比如2-3T以上的情况下开始失效了 09:37 如果scaling law在模型变大的过程中不work，现在有三条潜在路径：1、多模态尤其是视觉（但还没有证据说能从视觉模态训练涌现智能能力）； 2、10万卡集群（但10万卡集群充分互联的难度比预期难，可能是全人类最难的项目之一）； 3、强化学习self-play RL（这是范式级别的大转变！） 12:53 如果我是AI公司CEO，我会200%资源all in RL这条路 13:40 概念解释：Reinforcement Learning，简称RL，中文强化学习（Ilya用一句话概括强化学习：让AI用随机路径去尝试一个新任务，如果效果超出预期，就更新神经网络的权重让AI记得多使用成功的实践，再开始下一次尝试） 19:05 代码和数学可以变得很强，能不能泛化到更多领域没有证据 22:39你也可以把语言和预训练比作人类基因组，携带着人类几千年进化的基因，强化学习RL就是人类成长的一生 24:55 必须很聪明的模型才能有能力做self-play RL的探索 27:07 Anthropic Claude 3.5是这一波标志性的产品，他们不搞Sora/搜索，主线是RL；业内少数人意识到RL的重要性是最近两个月 28:35 硅谷明星公司现阶段的资源投入？1-2家公司把RL当作最高优先级 28:56 2024年9月OpenAI和Anthropic即将要发布的，什么值得期待？ 29:42 AGI范式大转移之下，还会有GPT-6和GPT-7吗？（可能明年会看到很小的模型比今天GPT-4o要聪明非常多，一个期待是实现AGI不一定需要巨量参数的模型） 30:33 新范式的困境和卡点 32:52 Character.AI出售给Google预示AGI竞赛上半场结束，下半场开始，创始人Noam从Google进入self-play RL下半场 34:36 新范式下，还需要那么多GPU吗？很多人关心英伟达股价 37:06 AGI范式转移只在最核心的researcher中有共识，几百人，还没扩散 38:55 Claude 3.5 Sonnet显著提升，带动了编程工具Cursor的火爆出圈 40:08 OpenAI在造势的草莓、Q*，猜测背后都是强化学习RL 41:55 国内公司应该应该all in 200%跟进RL 42:44 语言模型和RL是乘级关系硅谷AI一级市场的四个明星赛道 45:12 硅谷的AI赛道：围绕LLM周边有3-4个圈，搜索、代码Coding、视频、机器人 1、Coding：在硅谷出现了4-5家独角兽（Devin、Augment 、Magic、Poolside，都已经20-30亿美元估值），最近编程工具Cursor出圈 2、视频：这个赛道诱人，但格局不稳定、决胜窗口长 3、通用机器人：想赌具身领域也有个OpenAI，现在是基础科学突破的问题，没看到在机器人领域的“通用泛化能力”出现 57:00 美国通用机器人的明星项目（Pi、The Bot是业界公认最头部的项目，除此之外融资金额很大、声量也比较高的是Skild AI、Figure AI） 58:31 国内vs硅谷机器人：硅谷投robot foundation model一个大脑，像Andorid；在国内投整机，OV和小米 01:01:56 LLM->多模态->具身智能->世界模型，这是AI发展路径 01:05:54 LLM vs 移动互联网，叙事逻辑是什么？哪些明线与暗线？ 01:07:04 有没有可能，今天不做强化学习的公司未来都跑不出来 01:08:05 站在现在，重新评论一下中国LLM？“月亮和六便士”OpenAI和科技巨头 01:12:37 OpenAI 1、有点浪费技术领先的红利，产品没接住 2、联合创始人Greg Brockman、John Schumann离职 3、Ilya离开应该是bet on两个路线（多模态/强化学习，大概率是RL） 01:17:10 Q*和草莓和RL应该是一件事，草莓是代号，RL是方法 01:18:07 回答红杉美国合伙人 David Cahn发布最新文章《AI’s $600B Question》 01:20:00 在2024年Q3，AI叙事还有哪些非共识？ 01:22:45 Character.AI之后，哪些AI公司还会被收购？做个预测 01:23:38 2000年互联网hype破灭后只留下Amazon一家公司，今天AI hype如果破灭了，谁是下一个Amazon? 01:24:24 AGI第一幕是科技巨头受益，第二幕还没完全展开【全球大模型季报】系列2023年：口述全球大模型这一年：人类千亿科学豪赌与参差的中美景观2024年Q1：和广密聊AGI大基建时代：电+芯片=产出智能2024年Q2：口述全球大模型这半年：Perplexity突然火爆和尚未爆发的AI应用生态【更多信息】联络我们：微博@张小珺-Benita，小红书@张小珺jùn更多信息欢迎关注公众号：张小珺

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes

🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Other recent transcribed episodes

Transcribed and ready to explore now

13:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

Comments

There are no comments yet.

Please log in to write the first comment.

Report any issue

张小珺Jùn｜商业访谈录

73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

This episode hasn't been transcribed yet

Other recent transcribed episodes

13:00H | 21 DIC 2025 | Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

Sign in to Audioscrape

Share this moment