Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Pricing
Podcast Image

张小珺Jùn|商业访谈录

110. 逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等:“系统工程的力量”

30 Jul 2025

Description

我们又来读论文啦!!!今天我们要读的论文是最近几个星期内最值得品读的几篇技术报告,分别是:Kimi K2、ChatGPT Agent、Qwen3-Coder的技术报告,以及Manus的一篇技术博文。他们的相关性是,这几篇内容都和Agent有关系。今天的嘉宾是俄亥俄州立大学(The Ohio State University)的在读博士郑博元,他的研究方向是Language Agent,他会带我们一起读上述技术报告和博文。这是《商业访谈录》的“技术之美”系列,期待和你一起读论文,领略科技平权,感受技术之美——做你的赛博组会:)00:02:00 给Agent下定义和分类00:14:50 Kimi K2、ChatGPT Agent、Qwen3-Coder、Manus的技术路线对比00:28:29 Agent Training 的关键环节:合成数据、强化学习、安全00:30:57 第一篇技术报告:Kimi K2: Open Agentic Intelligencegithub.com00:43:50 第二篇技术报告和访谈:Introducing ChatGPT agent: bridging research and actionopenai.com红杉访谈OpenAI:OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yetwww.sequoiacap.com01:53:38 第三篇技术报告:Qwen3-Coder: Agentic Coding in the Worldqwenlm.github.io01:59:04 第四篇技术博文:AI代理的上下文工程:构建Manus的经验教训(作者:Yichao 'Peak' Ji)manus.im02:06:06 展望:也许会有一个新的范式02:15:20 我感觉Agent是“我拓展的大脑”,我背后有一个“军团”(Family of Agents)02:16:41 不同Bot的语言风格:DeepSeek嘴臭,元宝舔狗智能体定义Agent是一种能够与环境进行交互(interaction)的智能系统。它具备两个基本能力:感知能力(Perception)能够观察环境的状态,包括获取外部信息、读取反馈信号、解析上下文等。行动能力(Action)能够在环境中执行动作,例如调用工具、生成输出、控制界面、修改变量等。简言之,Agent = 感知 + 行动在一个循环中不断执行“观察 → 决策 → 行动”的流程,以达成任务目标。Agent 的定义与分类1. Coding Agent(代码智能体)代表产品:Cursor、Windsurf特点:代码生成与编辑能力强,用户体验优秀应用场景:代码补全、代码重构、多人协作编程2. Search Agent(搜索型智能体)特点:结合搜索引擎,自动完成信息检索和汇总应用场景:市场调研、报告生成、竞争对手分析等潜力:在企业级场景中有很强的应用价值3. Tool-Use Agent(工具使用型智能体)特点:能够调用多种外部工具完成复杂任务应用重点:是目前 Agent 研究和落地的主要方向举例:ReAct(推理 + 行动)类 Agent,通过 tool calling 执行任务4. Computer Use Agent(电脑操作型智能体)代表产品:OpenAI Operator、Claude 的 Computer Use特点:模拟人类使用电脑,完成跨应用的复杂操作应用场景:执行流程自动化、远程助理、办公代理Agent 的技术路线对比1. In-Context Learning(上下文学习)特点:依赖强大的预训练模型,通过提示构造实现任务规划与执行优势:无需微调,灵活性高局限:泛化能力弱,rollout 长度有限,容易失控2. End-to-End Training(端到端训练)特点:将 Agent 的全部行为编码进模型权重优势:推理稳定,可控性强局限:训练成本高,环境构建复杂Agent Training 的关键环节1. Data Synthesis(数据合成)方法:生成大量高质量的 trajectory(行动轨迹)用途:训练 Agent 在任务中如何决策、调用工具、管理 memory(记忆)2. Reinforcement Learning(强化学习)条件:需要定义清晰的 task(任务)与 verifiable reward(可验证奖励)挑战:任务难度与环境反馈设计直接影响 Agent 的行为质量3. Safety(安全性)问题风险:Agent 具备自主决策能力,容易误用工具、走偏轨迹对策:加入 sandbox(沙盒)限制、行为约束机制、Human-in-the-loop(人类监控)展望:也许会有一个新的范式生成数据的核心会从 input-output 式的数据标注,转向构建 environment(环境)以及对应的 task-reward(任务-奖励)。比如 Scale AI 提出的 rubrics as reward(用评分标准作为奖励机制)Agent 能不能实现自我提升(self-improve)?一方面,Agent 在和环境交互的过程中会不断获得新数据;那它能不能自己找到或构造 verifiable reward(可验证的奖励)?交互中积累的 experience(经验),能不能被更有效地利用起来?

Audio
Featured in this Episode

No persons identified in this episode.

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes
🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Comments

There are no comments yet.

Please log in to write the first comment.