Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Pricing
Podcast Image

跨国串门儿计划

#175. “AI领域没有新思想,只有新数据集”

15 Jul 2025

Description

📝 本期播客简介本期我们克隆了:AI 圈备受推崇的技术播客《Latent Space》本期嘉宾是康奈尔大学的博士生 Jack Morris,一位在读期间就凭借其研究成果在AI领域产生巨大影响的明日之星。在这期节目中,Jack Morris 将他一系列关于语言模型的研究,串联成一个宏大的叙事框架:为深度学习建立一套新的信息论。我们将跟随他的视角,探讨模型权重和嵌入向量中到底“藏”着多少“有用”信息。这不仅引出了他关于“文本嵌入反演”的惊人发现——即从向量中几乎可以完美恢复原文,更揭示了不同模型间可能存在的“通用几何”,为实现模型能力的即插即用提供了理论可能。除了硬核的研究探讨,这期对话还生动地描绘了当下AI研究者的真实生态。最后,Jack还将分享他犀利的观点:AI领域没有新思想,只有新数据集。这期内容兼具了学术深度与行业洞察,无论你是AI研究者还是从业者,都能从中获得巨大启发。👨‍🎓 本期嘉宾Jack Morris,康奈尔大学计算机科学博士生。他的研究聚焦于为深度学习系统建立一套信息论基础,探索模型权重与激活值中信息的存储、提取与利用。他因其在文本嵌入反演、模型通用几何等方向的开创性工作而闻名。📒 文字版精华见微信公众号(点击跳转)⏱️ 时间戳00:00 开场 & 播客简介疯狂的AI时代:一个博士生的视角02:14 AI 人才市场的疯狂与博士生的真实感受05:41 巨大的转变:ChatGPT 如何让前沿研究从学术界转向工业界09:02 技能鸿沟:为什么博士生课程不教分布式训练(HPC)12:13 AI 研究者的军备竞赛:从 CUDA 到 Mojo,效率就是生命线为AI建立新版信息论15:48 宏大叙事:我们需要一套新的“可用信息论”(V-information)22:17 惊人发现一:文本嵌入反演,从向量中几乎完美恢复原文28:08 科研的胜利:一次从30分到97分的突破,如何带来巨大成就感模型能力的通用性与极限30:37 惊人发现二:嵌入的“通用几何”与“柏拉图式表示假说”41:00 CycleGAN 的启示:如何对齐不同模型的“思想”45:05 模型的未来:实现能力“即插即用”的可能性47:54 惊人发现三:测量语言模型的容量极限与“Morris常数”54:20 商业间谍工具?从模型权重差异反推训练数据犀利洞见与未来展望01:00:40 终极论点:“AI没有新思想,只有新数据集”01:03:07 复盘AI发展的四次范式转移:数据才是核心驱动力01:07:10 下一个突破口在哪里?01:08:00 尾声:通过“博士生图灵测试”与未来规划🌟 精彩内容💡 为AI建立新版信息论Jack Morris 认为,传统的香农信息论无法衡量深度学习中信息的“可用性”。他引入了“V-information”概念,区分了“信息量”和“可提取信息量”。就像明文比密文更有用一样,预训练等过程就是让模型权重中的信息变得“更易提取”,为理解AI黑箱提供了全新的理论视角。🔍 文本嵌入反演:向量里藏着秘密Jack 的研究证明,看似无序的文本嵌入向量(Embedding)中包含了海量原始信息。他的模型能从一个OpenAI的嵌入向量中,以超过90%的准确率恢复出原始长句。这不仅揭示了向量数据库潜在的隐私风险,也展示了其团队在解决棘手问题上的坚韧与突破。“我们当时就盯着那个图,心想,天呐,谁能想到一个 embedding 里能藏着这么多信息?”🧩 模型的“通用几何”不同公司、不同架构的大模型,是否在学习完全不同的东西?Jack 的研究给出了否定答案。受“柏拉图式表示假说”启发,他证明了不同模型的嵌入空间存在“通用几何”,可以通过机器学习方法对齐。这意味着未来我们或许可以像搭乐高一样,为一个模型“即插即用”地添加另一个模型的能力。📈 “Morris常数”:模型参数的真实效率一个32位的浮点数参数,究竟能存储多少信息?通过精巧的实验,Jack 的团队测量出 Transformer 模型每个参数大约只能有效存储 3.6 到 3.9 比特的信息,效率极低。这个数字(被戏称为“Morris常数”)为我们衡量和优化模型效率提供了一个全新的基准。“你想想,你有 32 个比特位可用,结果你只能用上三到四个。”💥 AI没有新思想,只有新数据集Jack 提出了一个振聋发聩的观点:AI领域的重大突破,核心驱动力并非算法创新,而是新型数据集的出现。从 AlexNet/ImageNet,到 Transformer/网页级数据,再到 InstructGPT/人类偏好数据,每一次范式转移都源于我们喂给模型的数据发生了质变。这预示着,下一个AI的“iPhone时刻”,可能也隐藏在某种我们尚未利用的数据源之中。“所有我认为符合库恩定义的‘范式转移’的事件,都来自于一种新的技术,但它是在新的数据上训练的。这个‘新数据’至关重要。”🌐 播客信息补充翻译克隆自:Information Theory for Language Models: Jack Morris本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的使用 AI 进行翻译,因此可能会有一些地方不通顺如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

Audio
Featured in this Episode

No persons identified in this episode.

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes
🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Comments

There are no comments yet.

Please log in to write the first comment.