📝 本期播客简介本期我们克隆了知名播客《MAD Podcast》的特别节目,主持人是First Mark的Matt Turck,他与Anthropic顶尖AI研究员Sholto Douglas展开了深度对话。Sholto Douglas是一位经历独特的AI专家,他从澳大利亚的击剑世界冠军,到自学AI研究,再到Google和Anthropic的核心团队,一路见证并推动着AI的前沿发展。这次对话围绕Anthropic最新发布的Claude Sonnet 4.5模型展开,它被誉为全球最强的编程模型,在SWEbench基准测试上取得了78%的惊人成绩。Sholto揭示了AI进步的指数级加速,以及强化学习如何让AI学会“何时说我不知道”和自我纠正。最令人震撼的是,他们展示了一个AI智能体能自主工作长达三十小时,构建出一个功能完备的类Slack应用,这预示着AI在“计算机使用”和长期连贯性方面的巨大突破。Sholto坚信,当前的AI发展路径足以实现通用人工智能(AGI),并呼吁我们利用AI的巨大杠杆效应,解决人类面临的全球性挑战。这段对话不仅揭示了AI研究的幕后故事,更展望了我们即将迈入的、由AI驱动的全新世界。👨⚕️ 本期嘉宾Sholto Douglas,Anthropic的顶尖AI研究员。他是一位经历独特的AI专家,曾是澳大利亚击剑世界冠军,自学AI研究后加入Google,后成为Anthropic核心团队成员。他见证并推动着AI前沿发展,专注于AI对齐和经济影响领域。⏱️ 时间戳00:00 开场 & 播客简介02:11 AI进步的指数级加速:算力超级周期与技术迭代03:26 嘉宾Sholto Douglas的独特经历 03:51 Anthropic模型发布节奏与技术加速 04:41 Sonnet、Opus、Haiku模型区分与Sonnet 4.5的突破 05:44 Sholto Douglas的个人成长与AI之路 05:58 击剑冠军与YouTube的启发 08:10 从机器人操控到Google AI 09:58 学术障碍与AI研究人才的多元化 12:05 AI研究人才库的增长与Anthropic的培养策略 12:29 Google的经历与Gemini项目的挑战 14:24 加入Anthropic:文化、目标与AI对齐 15:09 顶级AI实验室的差异:DeepMind与Anthropic的专注点 16:40 AI研究中的“品味”:理解机制与追求简洁 18:41 Richard Sutton的“惨痛教训”与通用方法的胜利 20:08 AI研究中的艺术与科学:数据与直觉的平衡 21:26 Anthropic实验失败率与“安全实验文化” 23:19 Anthropic的专注:编程与长期AI对齐 24:31 Anthropic为何专注于编程:自我研究与经济影响 25:49 编程作为AI突破口的优势:可处理性与可重复性26:35 Claude Sonnet 4.5:全球最强编程智能体 26:49 SWEbench基准测试:Sonnet 4.5的惊人表现 28:30 模型好坏的真正标准:赋能用户做以前做不到的事 29:33 创业公司关键教训:押注模型未来能力 30:39 AI智能体自主工作30小时:构建类Slack应用 30:48 计算机使用与长期连贯性:AI的自我纠正能力 32:15 AI的两个维度:原始智能与持续运行能力 33:06 MetaEvals评测:衡量AI任务时间跨度的进步 33:54 30小时任务示例:可用的软件而非简单演示 35:33 技术飞跃的背后:记忆、上下文与自我纠正 36:49 突破的本质:持续努力与算力的函数 38:12 强化学习(RL)的影响:从预训练到习题反馈 41:10 测试时算力与强化学习的相互作用 42:06 为什么强化学习现在成为突破口:简单方法的有效性与模型质量门槛 44:33 强化学习与算力投入:推动AI进步的关键44:56 AGI之路:大语言模型与强化学习的潜力 45:06 AGI的定义:比大多数人类在计算机任务上更出色 45:34 模型智力无上限:强化学习在数学与编程领域的应用 47:44 反方论点与Sholto的看法:Transformer与强化学习的潜力 49:17 指数级进步的现实:人们对AI加速的误解 50:25 Sonnet 4.5的通用性:经济学、研究与金融领域的表现 50:53 GDP评测:衡量AI对经济影响的重要指标52:03 迎接AI驱动的未来:个体杠杆与全球挑战 53:00 机器人领域的进展:莫拉维克悖论的挑战与数据、反馈循环的突破 55:05 结束语🌟 精彩内容💡 AI进步的指数级加速与“算力超级周期”Sholto Douglas指出,AI技术进步正处于指数级加速阶段,尤其在算力供应增加后,今年是“算力超级周期”的真正开端。Anthropic模型发布的快速节奏,反映了预训练和强化学习双范式并行的成果,中档模型Sonnet甚至能超越之前的大模型Opus。“任何我们能衡量的指标,似乎都在飞速进步。赌指数级增长就对了。”🛠️ AI研究中的“品味”与“安全实验文化”在AI研究领域,“品味”指的是从机理上理解目标、追求简洁,以及在信息不全时做出正确推断的能力。Anthropic等顶级实验室通过建立“安全的实验文化”,鼓励研究员自由探索,即使实验成本高昂,也相信长期投入能带来基础性技术突破。“要从机理上理解你到底想做什么,并且要有一种追求简洁的偏好。”🚀 Claude Sonnet 4.5:全球最强编程智能体Sonnet 4.5在SWEbench基准测试上取得了78%的惊人成绩,被誉为全球最强编程模型。Sholto强调,模型的真正价值在于赋能用户做以前做不到的事情。最令人震撼的是,AI智能体能自主工作长达30小时,成功构建出一个功能完备的类Slack应用,这标志着AI在“计算机使用”和长期连贯性方面的巨大突破。“当一个AI智能体被允许连续工作三十个小时,会发生什么?”🧠 强化学习(RL)的突破与AGI之路强化学习(RL)被视为AI进步的关键。它让模型学会了“何时说我不知道”和自我纠正,解决了幻觉问题。Sholto认为,大语言模型与强化学习的结合,足以实现通用人工智能(AGI),即在大多数面向计算机的任务上比大多数人类做得更好。他坚信模型没有智力上限,只要有正确的反馈循环和算力,就能在所有智力活动领域达到甚至超越人类顶尖水平。“我认为这已经足够了。”🌍 迎接AI驱动的未来:个体杠杆与全球挑战Sholto呼吁人们为个体拥有更大杠杆能力的世界做好规划。AI将极大提升数字领域的个体生产力,未来一两年,一个人有望管理一个24/7工作的AI团队。他希望人们能利用AI带来的巨大杠杆效应,去解决全球面临的贫困、健康、住房等重要挑战,让世界变得更好。“我希望的是,人们能利用模型最初带给我们的数字世界的杠杆,以及未来希望通过机器人带给我们的物理世界的杠杆,去极大地改善这个世界。”🌐 播客信息补充翻译克隆自:Sonnet 4.5 & the AI Plateau Myth — Sholto Douglas (Anthropic)本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的使用 AI 进行翻译,因此可能会有一些地方不通顺;如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News