新年正式第一期,来点新东西。大家都说 Agent 热,那 Agent 到底是啥、到底为啥热、到底咋做、到底长啥样?大家都说 RL 是新方向,那 RL 到底是啥,和 LLM 的关系是什么,又能怎么和 Agent 结合?这期我们就请到了在 Meta 工作了七年的应用强化学习组负责人朱哲清 Bill,讲一讲他是怎么用一种很新的技术路线来做一种很新的 Agent,并且在电商等领域是如何落地的。最后,我们的 AI 私董会也在持续报名中,目前已经聚集了一批市场上最好的 AI 创始人,欢迎点击链接报名(里面也有目前已加入的成员名单,可点击查看)【人类博物馆】导游:曲凯,42章经创始人30 号珍藏:朱哲清 Bill,Pokee AI 创始人兼 CEO,此前 7 年在 Meta AI 做应用强化学习组负责人,并攻读了斯坦福大学强化学习专业博士学位【时光机】Part1 强化学习 3:06 我们思考方式已经全面 RL 化 —— from OpenAI 研究员 4:36 Transformer 和 RL 到底是什么关系?又要如何结合? 10:15 RL 解答的是平行宇宙问题 12:35 RL+LLM,就是公认最好的技术路线吗? 14:02 RL 的算法原理类似于「多巴胺刺激」 14:42 在无法清晰定义 Reward 的场景下,RL 还好用吗? 15:12 RL 最强的三个能力Part2 给 Agent 用上强化学习 18:42 为什么直接用 LLM 做不出规划型 Agent? 20:17 一个有效的 Agent 架构:RL 做核心,LLM 做翻译 23:35 我们做出了一个电商领域的通用型 Agent 24:39 体验相当于一个资深的网站负责人 26:05 原理是让 Agent 通过 self-play 学会使用上千个底层 API 29:43 Agent 当前市场格局: 29:52 Coding Agent 是皇冠上的明珠 30:26 Vertical Agent 遍地开花,但准确性仍是大难题 30:46 通用型 Agent 尚不存在,但 RL 或可迎战 31:17 万物皆可 call API 34:07 一个具体的应用示例:Agent 是怎么帮商家省钱提效的? 39:08 训练成本和推理成本都低得令人发指... 40:33 先定一个小目标:做各行各业的 API 杀手 42:57 对 25 年硅谷 AI 市场的观察和预判 43:11 垂类 Agent 是绝对的热点赛道,融资并不困难 45:29 25 年是 Agent 真正落地的一年 【The gang that made this happen】 制作人:陈皮、Celia 剪辑:陈皮 Bgm:Mondo Bongo - Joe Strummer & The Mescalero
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News