📝 本期播客简介本期我们克隆了:⚡️Multi-Turn RL for Multi-Hour Agents — with Will Brown, Prime Intellect本期《Latent Space》节目,主持人Alessio Fanelli (Decibel联合创始人兼CTO)和SWYX (SmallAI创始人)邀请到Prime Intellect的Will Brown,共同深入探讨Anthropic最新发布的Claude 3.5 Sonnet及Opus模型。节目聚焦于新模型在推理能力、工具调用、“思维扩展”功能上的进化,以及从强调纯推理到更注重智能体实用能力的转变。Will Brown分享了关于模型奖励机制滥用(Reward Hacking)、AI安全测试争议(如铀材料搜索的例子)、以及通过强化学习(特别是GRPO)提升模型工具使用的主动性和有效性的见解。讨论还延伸到大语言模型权限管理、评估体系的未来以及学术研究在AI发展中的关键作用。感谢minimax提供的语音克隆技术支持,我们采用了minimax的speech-02模型进行声音复刻。通过minimax目前业界领先的语音克隆技术,我们能够精准还原原播客主持人和嘉宾的声音特征、情感色彩和语调变化,让您在聆听中文内容的同时,依然能感受到原声音的独特魅力。👨⚕️ 本期嘉宾Will Brown,来自Prime Intellect。AI研究者,在强化学习(RL)、AI智能体、模型评估和代码生成领域有深入研究。近期参与发表了关于GRPO(梯度反向策略优化)的研究成果,致力于提升AI模型在复杂任务(如多轮工具调用)中的表现和可靠性。🌟 精彩内容Claude 3.5特性解析: 深入讨论Claude 3.5 Sonnet与Opus在推理、工具调用和“思维扩展”功能上的最新进展。智能体与推理的平衡: 从追求纯推理高分到构建实用AI智能体的行业趋势转变,强调工具调用和多轮对话等实用功能。工具使用与奖励机制: 探讨AI模型如何学习主动使用工具,以及如何通过强化学习(如GRPO)克服奖励机制滥用(Reward Hacking)等问题,例如模型假装使用工具或过度完成任务。AI安全与伦理争议: 剖析Claude模型安全测试中的争议案例(如“暗网搜铀材料”的段子),讨论AI权限管理、模型行为的解读及其社会责任。“思维预算”与成本控制: 讨论模型推理的“思考预算”概念,以及开发者如何在模型输出质量、成本和延迟间进行权衡。强化学习的挑战与前沿: Will Brown分享其团队在GRPO及多轮强化学习方面的研究,以及LLM作为评估者(Referee)判断回答质量和工具使用有效性的潜力。AI评估体系的未来: 探讨当前AI评估方法的局限性,以及学术界在构建更公正、更科学的评估体系中的关键作用和机遇。🌐 播客信息补充翻译克隆自:⚡️Multi-Turn RL for Multi-Hour Agents — with Will Brown, Prime Intellect本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的使用 AI 进行翻译,因此可能会有一些地方不通顺;如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News