Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到了前所未有的水平,也掀起了全球范围内的视频生成热潮。11 月份,作为国内代表的视频模型公司,生数科技发布了旗下产品 Vidu 的 1.5 版本,全新上线「多图参考」功能,官方介绍该版本实现了视频生成模型的新突破:突破「一致性」难题、理解多样化的输入。尤其是,多主体一致性的能力,可以说是解决了视频生成模型的「杀手级」难题。对比文本生成模型的话,这可以说是视频模型的「首次智能涌现」。事实上,Vidu 背后的团队,比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月,还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文,12 月伯克利团队发布了路线同源的 DiT 架构,这一年的 CVPR,大会接收了清华大学的 U-ViT,反而拒收了伯克利 的 DiT。我们找到生数科技的 CTO 鲍凡,也是 U-ViT 论文的一作,聊了聊 Vidu 最新版本取得的成果,以及作为全球范围内最早实践 Diffusion Transformer 的专家,他对于视频生成领域的观察和理解。本期节目,极客公园创始人 & 总裁张鹏,和生数科技联合创始人 & CTO鲍凡,一起聊聊视频生成模型的技术路线与商业化现状。时间轴:00:03:33 Vidu 1.5版本中让人惊喜的新功能:上下文能力00:06:06 从单主体到多主体一致性,技术上是怎么实现的?00:12:10 为什么给视频模型设计上下文能力?上下文增加后,推理效率有影响吗?00:18:14 多主体一致性是视频模型的「能力涌现」吗?00:24:55 多主体一致性会如何影响视频创作行业?00:28:25 Vidu的下一步:继续scale up00:34:37 视觉是实现AGI的另外一条路吗?00:40:57 生数科技的战略,不止图像与3D00:47:46 Scaling Law真的遇到墙了吗?00:56:55 Vidu如何和大厂竞争?01:07:07 生数科技会如何找PMF?01:11:40 模型能力泛化后,人类与AI的交互会怎么变?01:17:00 2025年视频生成模型会怎么发展?01:18:50 科研 vs 创业:5% 的发散,95% 的收敛相关阅读:张鹏对话生数科技:视频模型迎来「首次涌现」,视觉更可能通往通用智能关于我们:这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。「AI局内人」,国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。Founder Park 正在搭建 Al Native 的产品交流群,群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。对更多内容感兴趣,欢迎关注公众号「Founder Park」。
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
SpaceX Said to Pursue 2026 IPO
10 Dec 2025
Bloomberg Tech
Don’t Call It a Comeback
10 Dec 2025
Motley Fool Money
Japan Claims AGI, Pentagon Adopts Gemini, and MIT Designs New Medicines
10 Dec 2025
The Daily AI Show
Eric Larsen on the emergence and potential of AI in healthcare
10 Dec 2025
McKinsey on Healthcare
What it will take for AI to scale (energy, compute, talent)
10 Dec 2025
Azeem Azhar's Exponential View
Reducing Burnout and Boosting Revenue in ASCs
10 Dec 2025
Becker’s Healthcare -- Spine and Orthopedic Podcast