📝 本期播客简介本期节目克隆了 硅谷101年度线下大会演讲 中李沐部分的演讲由资深专家李沐分享其团队在这一领域的实践经验。语音代理的核心在于实现实时、任务导向的语音交互,而非简单的闲聊。李沐通过两个截然不同的项目案例,生动展示了语音代理的巨大潜力与落地挑战。第一个案例是为游戏角色“Stellar”打造的开放式语音互动体验,其中AI既是故事设计师又是演员,需要维持复杂的世界观和角色设定,并应对玩家的各种输入。第二个案例则是一个高度规范的AI电话销售员,它必须精准遵循销售手册,处理复杂的产品组合,甚至要能识别客户语气中的不耐烦,并在极短的延迟内做出恰当回应。李沐详细分享了他们在预训练、模型架构、实时交互以及评估方法上的宝贵经验和教训,揭示了这项技术如何在平衡高智能与低延迟之间取得突破,以及在企业级应用中,自研模型有时比通用API更具优势。尽管语音代理技术仍处于“第一天”,但其在游戏、客服、销售等领域的落地已展现出无限可能,预示着未来几年将带来更多激动人心的变革。翻译克隆自:李沐:Voice Agent商业落地的教训、经验与实践|硅谷101年度线下大会演讲(全英)硅谷101播客 https://www.xiaoyuzhoufm.com/podcast/5e5c52c9418a84a04625e6cc如果侵权了,请联系我,我会立刻删除🙇♂️👨⚕️ 嘉宾李沐,语音代理领域资深专家及实践者。⏱️ 时间戳00:00 播客及嘉宾介绍语音代理:实时、任务导向的交互02:23 什么是语音代理:实时响应与明确任务目标03:47 案例一:游戏角色“Stellar”——开放式语音互动体验游戏角色“Stellar”的挑战与实践04:39 AI的角色:既是游戏设计师又是演员,维持复杂世界观与角色设定06:01 互动困境:玩家拒绝帮助,AI如何引导故事走向07:13 技术路径与教训:自研预训练模型与数据中心建设10:34 关键经验:通用能力与领域评测基准的重要性11:23 智能来源:预训练的决定性作用12:10 现有局限:对话轮次、多角色处理与实时性挑战案例二:AI电话销售员——规范与精准的商业应用12:55 案例介绍:AI电话销售员在保险行业的应用14:13 行业要求:通过认证考试、业绩指标与低投诉率15:02 核心能力:精准遵循销售手册、工具使用、数学计算与人性化交互16:11 情感识别:从语气中判断客户不耐烦,调整销售策略语音代理的实时架构与技术突破16:48 实时交互架构:全双工、半双工与级联方案对比18:52 定制化方案:两段式级联架构实现高智能与低延迟20:39 核心技术:同时“听、说、想”,上下文工程与策略组织者AI电话销售员的落地进展与经验总结21:28 项目进展:从55分到达到人类80分水平的突破22:28 评估挑战:端到端语音代理评估的复杂性与成本22:28 企业级自研:高安全要求下,自研模型优于通用API语音代理的未来展望23:15 技术可扩展性:游戏与销售场景的通用架构24:12 落地现状与未来:仍处于“第一天”,但潜力无限24:54 合作与交流邀请🌟 精彩内容💡 语音代理的核心:实时响应与任务导向李沐指出,语音代理并非简单的闲聊,而是要求在极短延迟内(一秒以内)完成特定任务。无论是游戏中的故事引导,还是销售中的信息匹配,明确的任务目标是其核心价值。“它的响应必须非常快,比如端到端延迟要在一秒以内。”🎮 游戏角色“Stellar”:AI的“演员”与“设计师”双重身份在为游戏角色“Stellar”打造的开放式互动中,AI不仅要作为“演员”保持角色设定和宏大世界观的一致性,还要作为“设计师”根据玩家输入动态引导故事走向,这要求AI具备高度的智能和适应性。“它既是游戏设计师,又是演员。作为游戏设计师,它要设计出合理又好玩的故事。然后,作为演员,代理生成的对话要符合角色设定。”📞 AI电话销售员:高精度与人性化的平衡在高度规范的保险销售场景中,AI电话销售员必须精准遵循销售手册,处理复杂的产品组合,同时还要能识别客户语气中的不耐烦,并在极短延迟内做出恰当回应,这体现了高精度与人性化交互的完美结合。“你需要判断出这个声音里带着不耐烦。再结合上下文,你就会意识到,我已经试了三次,现在应该重新安排时间了。”🧠 实时架构:同时“听、说、想”的突破为实现高智能与低延迟,李沐团队采用了“听、说、想”同步进行的架构。通过异步调用更大的模型进行“思考”,结合上下文工程和策略组织者,使得AI能在听取用户输入的同时,逐句生成回应,大大提升了交互的流畅性。“你要能同时‘听、说、想’。也就是说,你一边听,一边逐句生成回应。在这期间,你可以异步调用更大的生成模型去思考。”🔒 企业级应用:自研模型的重要性在金融保险等高安全要求的企业级应用中,模型数据不能离开特定国家或公司内部安全组。这使得自研模型成为比依赖通用API或开源模型更优甚至唯一的选择,确保了数据安全和合规性。“如果你在不同的国家上线,模型数据是不能离开这个国家的,甚至不能离开公司内部的安全组。”🌐 播客信息补充本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的使用 AI 进行翻译,因此可能会有一些地方不通顺;如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News