Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Pricing
Podcast Image

张小珺Jùn|商业访谈录

121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

28 Nov 2025

Description

今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学从图形学转型机器人的变轨我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑)13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet今天的机器人发展到什么阶段了?从demo到真正落地,隔十年并不是一个非常夸张的事从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型但多模态模型缺什么呢?缺少robot action的输出当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情最大的问题还是数据问题但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的现在有很多startup叫data factory(数据工厂)所谓“数据金字塔”包括哪些?​27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀Gemini Robotics 1.5最重要的发现是什么?第一个是我们把“thinking”加入了VLA模型第二个非常重要的突破是cross-embodiment transfer(跨具身迁移)Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制当你要一个unify model(统一模型)的时候,它必须非常大Motion Transfer?It’s very secret47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段我们比较重视的一点还是数据、数据、数据遥操作是非常难以获取的数据我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代我信仰的是scalable data01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件如果你有灵巧手,触觉就非常重要之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件现在还在夹爪时代在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰)01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”这几年Google AI或者robotics的研究文化上有没有发生过变化?不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情像Gemini Robotics,它更多是自上而下我发觉好像国内不一定比我卷,我一周可能工作70到80个小时真的,这个时代真的是等不起,不然别人都做出来了AI有很多是数学,华人数学比较好《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》【更多信息】本集的文字版本已发布,请搜索我们工作室的官方公众号:语言即世界language is world

Audio
Featured in this Episode

No persons identified in this episode.

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes
🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Comments

There are no comments yet.

Please log in to write the first comment.