AI局内人 | AGI Insider

Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

04 Dec 2024

Audio

Description

Sora 基于 DiT（Diffusion Transformer）架构，把长视频生成的效果提高到了前所未有的水平，也掀起了全球范围内的视频生成热潮。11 月份，作为国内代表的视频模型公司，生数科技发布了旗下产品 Vidu 的 1.5 版本，全新上线「多图参考」功能，官方介绍该版本实现了视频生成模型的新突破：突破「一致性」难题、理解多样化的输入。尤其是，多主体一致性的能力，可以说是解决了视频生成模型的「杀手级」难题。对比文本生成模型的话，这可以说是视频模型的「首次智能涌现」。事实上，Vidu 背后的团队，比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月，还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文，12 月伯克利团队发布了路线同源的 DiT 架构，这一年的 CVPR，大会接收了清华大学的 U-ViT，反而拒收了伯克利的 DiT。我们找到生数科技的 CTO 鲍凡，也是 U-ViT 论文的一作，聊了聊 Vidu 最新版本取得的成果，以及作为全球范围内最早实践 Diffusion Transformer 的专家，他对于视频生成领域的观察和理解。本期节目，极客公园创始人 & 总裁张鹏，和生数科技联合创始人 & CTO鲍凡，一起聊聊视频生成模型的技术路线与商业化现状。时间轴：00:03:33 Vidu 1.5版本中让人惊喜的新功能：上下文能力00:06:06 从单主体到多主体一致性，技术上是怎么实现的？00:12:10 为什么给视频模型设计上下文能力？上下文增加后，推理效率有影响吗？00:18:14 多主体一致性是视频模型的「能力涌现」吗？00:24:55 多主体一致性会如何影响视频创作行业？00:28:25 Vidu的下一步：继续scale up00:34:37 视觉是实现AGI的另外一条路吗？00:40:57 生数科技的战略，不止图像与3D00:47:46 Scaling Law真的遇到墙了吗？00:56:55 Vidu如何和大厂竞争？01:07:07 生数科技会如何找PMF？01:11:40 模型能力泛化后，人类与AI的交互会怎么变？01:17:00 2025年视频生成模型会怎么发展？01:18:50 科研 vs 创业：5% 的发散，95% 的收敛相关阅读：张鹏对话生数科技：视频模型迎来「首次涌现」，视觉更可能通往通用智能关于我们：这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。「AI局内人」，国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。Founder Park 正在搭建 Al Native 的产品交流群，群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。对更多内容感兴趣，欢迎关注公众号「Founder Park」。

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes

🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Other recent transcribed episodes

Transcribed and ready to explore now

13:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

Comments

There are no comments yet.

Please log in to write the first comment.

Report any issue

AI局内人 | AGI Insider

Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

This episode hasn't been transcribed yet

Other recent transcribed episodes

13:00H | 21 DIC 2025 | Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

Sign in to Audioscrape

Share this moment