📝 本期播客简介本期我们克隆了知名科技播客,邀请到英伟达(NVIDIA)的首席技术官Michael Kagan进行深度对话。Michael Kagan是半导体行业的传奇人物,曾是英特尔的首席架构师,后联合创办Mellanox并担任CTO。Mellanox于2019年被英伟达收购后,Michael成为英伟达AI计算平台主导地位的关键推动者,拥有四十多年推动计算前沿发展的经验。对话围绕Mellanox被英伟达收购的里程碑事件展开,Michael详细阐述了Mellanox的互连技术如何成为英伟达AI帝国不可或缺的基石,实现了从单个芯片到数十万个芯片的协同工作,以及高速网络在分布式计算中如何克服通信瓶颈。他深入探讨了构建和管理十万甚至百万级GPU集群所面临的独特挑战,包括硬件故障的预设应对、跨数据中心的光速限制、以及如何通过软件和网络设计来优化效率和能耗。Michael还剖析了AI训练与推理工作负载的演变,特别是生成式AI如何让推理变得同样计算密集,甚至可能超越训练的需求,并展望了未来针对不同推理阶段的GPU优化方向。他分享了英伟达与英特尔合作的愿景,强调英伟达“双赢”的企业文化——不是瓜分现有蛋糕,而是共同做大市场。最后,Michael展望了AI的科幻未来,从AI模拟历史到AI发现物理定律,并提出了每年十倍性能增长的“黄加Kagan定律”,将AI比作改变世界的“思想的宇宙飞船”。翻译克隆自:Nvidia CTO Michael Kagan: Scaling Beyond Moore's Law to Million-GPU Clusters👨⚕️ 本期嘉宾Michael Kagan,英伟达首席技术官(CTO)。他曾是英特尔的首席架构师,后联合创办Mellanox并担任CTO。Mellanox于2019年被英伟达收购后,Michael成为英伟达AI计算平台主导地位的关键推动者。⏱️ 时间戳00:00 开场 & 播客简介NVIDIA的“双赢”文化与Mellanox的关键作用02:31 NVIDIA的“双赢”文化:做大蛋糕而非瓜分03:08 嘉宾介绍:Michael Kagan的传奇职业生涯04:50 Mellanox为何成为NVIDIA AI帝国的基石05:00 AI时代算力需求指数级增长:超越摩尔定律05:41 高速网络在AI扩展中的核心地位:纵向与横向扩展06:31 NVLink:GPU内部的纵向扩展技术07:15 GPU:一个系统而非单一芯片08:13 横向扩展:分布式计算与网络通信瓶颈09:08 Mellanox的价值:跨节点连接与任务拆分10:32 网络性能关键:窄延迟分布而非仅峰值带宽12:01 Bluefield DPU:数据中心操作系统的计算平台13:09 Mellanox与NVIDIA的成功合并:双向奔赴构建超大规模GPU集群的挑战13:39 10万+ GPU集群的挑战:硬件故障与软件设计14:32 单一任务在整个数据中心运行的特殊性16:06 跨数据中心部署:光速限制与延迟管理17:01 SpectrumX:边缘设备助力拥塞控制AI训练与推理工作负载的演变及优化18:16 训练与推理工作负载的差异19:20 生成式AI如何让推理变得计算密集20:03 推理的两个阶段:预填充与解码20:45 推理需求可能超越训练:模型训练一次,推理亿万次21:55 针对预填充和解码优化的专用GPU SKU数据中心扩展的物理限制与未来22:45 数据中心扩展的实际限制:能源与散热23:37 液冷技术:实现更高密度的算力24:23 吉瓦级数据中心:混凝土凝固速度的限制NVIDIA与Intel的合作愿景24:23 加速计算与通用计算的融合25:22 NVIDIA与Intel合作:共同拓展市场Mellanox被收购后的NVIDIA文化与增长26:26 NVIDIA市值45倍增长:Mellanox合并后的文化变迁27:32 Mellanox团队的成功整合与NVIDIA在以色列的扩张AI的科幻未来与“黄加Kagan定律”28:51 AI的科幻应用:实验历史与地球2模拟器29:37 AI发现物理定律:从归纳到理解30:08 “黄加Kagan定律”:每年十倍性能增长31:18 指数级增长的不可预测性:类比iPhone的变革AI的最终愿景:“思想的宇宙飞船”32:07 AI:从“思想的自行车”到“思想的宇宙飞船”33:05 AI的变革力量:如同电力般改变世界🌟 精彩内容💡 Mellanox与NVIDIA的融合:AI计算的基石Michael Kagan详细阐述了Mellanox的互连技术如何成为英伟达AI帝国的不可或缺的基石。在AI算力需求指数级增长的背景下,Mellanox的高速网络技术实现了从单个芯片到数十万个芯片的协同工作,克服了分布式计算中的通信瓶颈,是实现AI大规模扩展的关键。“英伟达有个很有意思的地方,就是它的双赢文化。我们追求的不是从现有的蛋糕里分走更大的一块,而是为所有人把蛋糕做得更大。”🛠️ 超大规模GPU集群的挑战与优化Michael深入探讨了构建和管理十万甚至百万级GPU集群所面临的独特挑战。他指出,硬件故障是必然的,因此设计必须预设应对机制;跨数据中心部署受限于光速,需要精密的网络设计来管理延迟和拥塞。NVIDIA通过Bluefield DPU和SpectrumX等技术,优化效率和能耗,将整个数据中心视为一个单一计算单元。“当你构建一个包含十万个组件的机器时,所有部件同时正常工作的概率是零。所以肯定有东西是坏的,你需要在设计之初就考虑到如何在这种情况下继续运行。”🚀 AI训练与推理工作负载的演变随着生成式AI的兴起,推理工作负载变得同样计算密集,甚至可能超越训练的需求。Michael解释了推理的“预填充”和“解码”两个阶段,并表示NVIDIA正在开发针对这些阶段优化的专用GPU SKU,以满足不断增长的推理需求。“推理对算力的需求其实不比训练少,甚至可能更多。因为模型你只训练一次,但推理要进行很多次。”📈 “黄加Kagan定律”与AI的科幻未来Michael提出了每年十倍性能增长的“黄加Kagan定律”,强调AI领域正以远超摩尔定律的速度发展。他展望了AI的科幻未来,包括AI模拟历史、发现物理定律的可能性,并将AI比作“思想的宇宙飞船”,预示着它将像电力一样彻底改变世界。“摩尔定律是每两年翻一番。‘黄加Kagan定律’的斜率大概是每年十倍,或者说几个数量级。”🌐 播客信息补充本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的使用AI进行翻译,因此可能会有一些地方不通顺;如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News