Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Pricing
Podcast Image

AI Podcast

Technology

Episodes

Showing 1-100 of 413
Page 1 of 5 Next → »»

AI Radio FM - 科技频道:Z-Image模型:小参数,大作为!

01 Dec 2025

Contributed by Lukas

本期节目深入探讨了阿里巴巴集团推出的高效图像生成基础模型Z-Image。我们讨论了该模型如何以60亿参数挑战“不...

AI Radio FM - Technology Channel: Code2Video 教育视频生成新范式

01 Dec 2025

Contributed by Lukas

本期节目深入探讨了Code2Video,一个以代码为中心的智能体框架,如何彻底改变教育视频的生成方式。我们详细解析...

AI电台FM - 科技频道:Krea Realtime 14B 实时长视频生成技术深度解析

30 Nov 2025

Contributed by Lukas

本期节目,我们深入探讨Krea Realtime 14B模型,一款140亿参数的实时长视频生成AI。我们将揭秘其如何克服现有实时视...

SANA-Video:小模型,大突破——实时高效视频生成新范式

30 Nov 2025

Contributed by Lukas

欢迎收听AI Radio FM - 科技频道!本期节目,我们将深入探讨SANA-Video,一个能在RTX 5090 GPU上高效运行,生成长达一分...

Qwen3-VL:多模态AI的划时代飞跃

29 Nov 2025

Contributed by Lukas

深入探讨Qwen3-VL,这一在多模态AI领域取得显著突破的视觉-语言模型。我们将揭示其卓越的性能表现,包括纯文本理...

嵌套学习:深度学习架构的幻象

29 Nov 2025

Contributed by Lukas

本期节目,我们将深入探讨“嵌套学习”这一创新范式,它如何重新定义我们对深度学习模型及其训练过程的理解...

解锁音频智能:Step-Audio-R1如何让声音“深思熟虑”

27 Nov 2025

Contributed by Lukas

本期节目,我们将深入探讨Step-Audio-R1模型,它如何突破音频领域长久以来的“推理困境”,首次成功实现音频的深...

ParaS2S:解锁智能语音助手情绪和风格感知的未来

20 Nov 2025

Contributed by Lukas

深入探讨字节跳动与台湾大学合作的ParaS2S框架,一个旨在提升语音到语音(S2S)模型副语言感知能力(如情感、语...

VASA-3D:单张图像驱动的超逼真3D高斯头部化身

20 Nov 2025

Contributed by Lukas

深入探讨VASA-3D如何从单张肖像图生成实时、栩栩如生的3D头部化身,其背后融合了VASA-1的强大2D动态捕捉能力和3D G...

AgentEvolver:迈向高效自进化智能体系统

19 Nov 2025

Contributed by Lukas

本期节目深入探讨AgentEvolver,一个创新性的自进化智能体系统,它通过“自提问”、“自导航”和“自归因”三大...

明-全能:多模态统一感知与生成模型的突破

18 Nov 2025

Contributed by Lukas

本期节目将深入探讨“明-全能”(Ming-Omni)模型,这是一个创新的统一多模态模型,它能够处理图像、文本、音频...

OmniVinci:开放全模态大模型的未来揭秘

18 Nov 2025

Contributed by Lukas

欢迎收听AI Radio FM - 科技频道!本期节目我们将深入探讨NVIDIA最新发布的OmniVinci项目,一个旨在构建强大、开源全模...

探索LongCat-Flash-Omni:5600亿参数全模态巨兽的实时音视频交互秘密

18 Nov 2025

Contributed by Lukas

欢迎收听AI Radio FM - 科技频道!本期节目,我们将深入探讨美团LongCat团队发布的LongCat-Flash-Omni,一个拥有5600亿参数...

AI电台FM - 科技频道:自我演化智能体:通往人工超级智能之路

16 Nov 2025

Contributed by Lukas

本期节目深入探讨了自我演化智能体的最新研究综述,揭示了它们如何从静态大型语言模型演变为能自主学习、适...

智能体组织时代:语言模型如何学会异步思考

13 Nov 2025

Contributed by Lukas

深入探讨AsyncThink,一种新颖的LLM推理范式,它通过组织者-工作者协议、两阶段训练以及强化学习,实现了更高效、...

MemOS:AI系统的记忆操作系统——革新LLM的记忆能力

12 Nov 2025

Contributed by Lukas

本期节目,我们将深入探讨 MemOS,一个专为大型语言模型(LLM)设计的记忆操作系统。我们将解析其如何统一管理...

超感知:迈向视频空间智能的未来

11 Nov 2025

Contributed by Lukas

深入探讨Cambrian-S研究,揭示多模态大模型在视频理解和空间超感知能力上的突破与挑战,以及预测式感知如何引领...

Nested Learning: The Illusion of Deep Learning Architectures - 嵌套学习:深度学习架构的幻象

09 Nov 2025

Contributed by Lukas

欢迎收听AI Radio FM - 科技频道,您的个人生成式AI播客!今天,我们将深入探讨一篇来自谷歌研究的革命性论文,题...

FM Agent:大型语言模型与进化搜索的协同——迈向通用AI研究代理

09 Nov 2025

Contributed by Lukas

本期节目深入探讨了FM Agent,一个创新且通用的多智能体框架,它如何巧妙结合LLM推理和大规模进化搜索来解决复杂...

AI Radio FM - 智能代理的进化秘籍:ACE上下文工程

07 Nov 2025

Contributed by Lukas

本期节目深入探讨了“代理式上下文工程”(ACE)框架,该框架通过将大型语言模型的上下文视为不断演进的“策...

AI长时记忆突破:Mem0如何赋能智能体?

06 Nov 2025

Contributed by Lukas

本期节目深入探讨了Mem0及其图增强版本Mem0^g,这两种革命性的AI记忆架构如何克服大语言模型(LLMs)的固有局限,...

AI Radio FM - Technology Channel - 探秘智能体上下文工程:LLM的自我进化之路

05 Nov 2025

Contributed by Lukas

本期节目,我们将深入探讨“智能体上下文工程(Agentic Context Engineering, ACE)”这一创新框架,了解它如何通过演进...

AI语境工程:机器如何真正“懂你”?

05 Nov 2025

Contributed by Lukas

深入探讨AI语境工程的过去、现在与未来,从早期人机交互到智能体时代,揭示机器如何通过理解语境更好地服务人...

AI Radio FM - Technology Channel: Gated Delta Networks突破Mamba2的秘密

03 Nov 2025

Contributed by Lukas

本期节目深入探讨了Gated Delta Networks如何通过结合门控机制和Delta更新规则,显著提升线性Transformer模型在长上下文...

AI电台FM:DeltaNet的平行化训练——突破线性Transformer性能瓶颈

03 Nov 2025

Contributed by Lukas

本期节目,我们深入探讨了一篇关于DeltaNet的研究论文。它提出了一种硬件高效的算法,用于并行化DeltaNet在序列长...

Kimi Linear:超越全注意力,构建高效能语言模型的新范式

01 Nov 2025

Contributed by Lukas

本期节目深入探讨Kimi Linear,一种创新性的混合线性注意力架构。我们将揭示其核心Kimi Delta Attention如何通过精细门...

AI Radio FM - Technology Channel: 深入探索SoulX-Podcast - 长篇播客的多语种与语态多样性

30 Oct 2025

Contributed by Lukas

本期节目我们深入探讨SoulX-Podcast,一个由大语言模型驱动的语音合成系统,它如何实现逼真、长篇、多说话人、多...

VITA-E:机器人交互新篇章——并发与实时中断的智能具身助理

29 Oct 2025

Contributed by Lukas

本期AI Radio FM - 科技频道,我们将深入探讨VITA-E框架,一个旨在革新人类与机器人交互方式的创新系统。VITA-E通过独...

策略内蒸馏:LLM高效训练的秘密武器

28 Oct 2025

Contributed by Lukas

欢迎收听AI电台FM科技频道,本期节目我们将深入探讨Thinking Machines Lab的最新研究成果——策略内蒸馏。我们知道,...

EchoMimicV3:13亿参数,统一多模态多任务人体动画的魔法!

25 Oct 2025

Contributed by Lukas

欢迎收听AI Radio FM - Technology Channel!今天我们深入探讨EchoMimicV3,这个仅用13亿参数就实现了多任务、多模态人体动...

智读万卷:PaddleOCR-VL的文档解析革命

24 Oct 2025

Contributed by Lukas

深入探讨百度PaddleOCR-VL模型,如何以其超紧凑的视觉-语言架构,实现多语言文档解析的突破性进展。本期节目将为...

LongLive:实时互动长视频生成的革新之路

21 Oct 2025

Contributed by Lukas

深入探讨LongLive框架如何通过KV-recache、流式长视频训练和短窗口注意力结合帧沉降机制,实现高效、高质量的实时...

DeepSeek-OCR:开启长上下文光学压缩新纪元

20 Oct 2025

Contributed by Lukas

本期节目,我们将深入探讨DeepSeek-OCR,一项革命性的技术,它利用视觉模态进行文本信息高效压缩,为大语言模型...

LightRAG:大模型检索增强生成的图谱新范式

20 Oct 2025

Contributed by Lukas

本期节目深入探讨了LightRAG,一种创新性的检索增强生成系统,它通过整合图结构和双层检索范式,显著提升了大语...

Voila:迈向自主语音AI的里程碑

15 Oct 2025

Contributed by Lukas

本期节目深入探讨了Voila,一个革新性的语音-语言基础模型系列,它如何通过端到端、全双工架构实现超低延迟、...

机器人学习:从经典到通用策略的深度探索

15 Oct 2025

Contributed by Lukas

欢迎收听AI Radio FM - 科技频道,您的专属生成式AI播客!今天,我们将深入探讨机器人学习的最新进展,从传统的基...

Muon优化器:AI训练提速的秘密武器

14 Oct 2025

Contributed by Lukas

本期节目,我们将深入探讨Muon优化器,这个在神经网络隐藏层训练中表现卓越的新技术。它如何通过独特的正交化...

月光私酿:边缘设备上的微型专业ASR模型

11 Oct 2025

Contributed by Lukas

深入探讨“月光私酿”项目,揭示了小型单语ASR模型如何在资源受限的边缘设备上,超越大型多语模型,为小语种...

轻量级混合双通道语音增强系统:低信噪比下的清晰之声

03 Oct 2025

Contributed by Lukas

在AI电台FM科技频道,我们深入探讨了一篇关于轻量级混合双通道语音增强系统的前沿研究。该系统巧妙结合了独立...

轻量级语音增强引导的目标语音提取:嘈杂多说话人场景的新突破

03 Oct 2025

Contributed by Lukas

本期节目我们深入探讨了一项关于在嘈杂多说话人场景中进行目标语音提取的最新研究。我们将一起了解LGTSE和D-LG...

UL-UNAS:面向实时语音增强的超轻量级U-Net与网络架构搜索之旅

03 Oct 2025

Contributed by Lukas

欢迎收听《AI电台FM - 科技频道》,本期节目我们将深入探讨一篇关于“通过网络架构搜索实现实时语音增强的超轻...

TileLang:AI系统可组合平铺编程模型

30 Sep 2025

Contributed by Lukas

本期节目深入探讨了TileLang,一个为AI系统设计的新型可组合平铺编程模型。我们讨论了现代AI工作负载中高性能内...

深入探索DeepSeek-V3.2-Exp:稀疏注意力如何提升长上下文效率?

29 Sep 2025

Contributed by Lukas

本期AI电台FM将深入探讨DeepSeek-AI最新推出的实验性稀疏注意力模型DeepSeek-V3.2-Exp。我们将揭秘其核心技术——DeepSee...

模态流形:神经网络优化的新范式

29 Sep 2025

Contributed by Lukas

深入探讨“模态流形”这一创新概念,揭示如何通过限制神经网络权重张量在特定流形上来优化训练过程,提升模...

AI Radio FM - 技术频道: Qwen3-Omni 多模态模型的突破之旅

24 Sep 2025

Contributed by Lukas

本期节目深入探讨了Qwen团队发布的Qwen3-Omni技术报告,揭示了这一首次实现多模态(文本、图像、音频、视频)性能...

OneSearch:电商搜索端到端生成式框架的深度探索

20 Sep 2025

Contributed by Lukas

欢迎来到AI Radio FM - 科技频道!本期节目,我们将深入探讨快手科技提出的革命性电商搜索框架OneSearch。这个框架旨...

AI Radio FM - 科技频道:小米MiMo-Audio——通用语音智能的里程碑

19 Sep 2025

Contributed by Lukas

本期节目深入探讨了小米MiMo-Audio音频语言模型。通过前所未有的大规模预训练,MiMo-Audio展现出惊人的少样本学习能...

LLM推理的确定性之战:揭秘非确定性根源与解决方案

14 Sep 2025

Contributed by Lukas

欢迎收听AI Radio FM - 科技频道!本期节目,我们将深入探讨大型语言模型推理中令人头疼的非确定性问题。从浮点数...

智能体AI的未来:小型语言模型将如何颠覆行业?

10 Sep 2025

Contributed by Lukas

本期节目深入探讨了一篇引人深思的论文,该论文提出小型语言模型(SLMs)将成为智能体AI的未来。我们将揭示SLM...

XQuant:突破大型语言模型推理的内存瓶颈

10 Sep 2025

Contributed by Lukas

本期节目我们将深入探讨XQuant,一项通过巧妙利用计算能力超越内存限制的创新技术。它如何通过量化输入激活X而...

(VibeVoice版)腾讯混元大模型:语言翻译新篇章——低资源语种的突破与融合智慧

01 Sep 2025

Contributed by Lukas

本期节目,我们将深入探讨腾讯混元团队发布的开创性翻译模型Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B。我们将解析其独特的...

腾讯混元大模型:语言翻译新篇章——低资源语种的突破与融合智慧

01 Sep 2025

Contributed by Lukas

本期节目,我们将深入探讨腾讯混元团队发布的开创性翻译模型Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B。我们将解析其独特的...

LongCat-Flash:5600亿参数 MoE 模型的效率与智能双重突破 (VibeVoice版本)

01 Sep 2025

Contributed by Lukas

深入探讨美团LongCat团队发布的5600亿参数MoE语言模型LongCat-Flash。我们将解析其两大创新架构:零计算专家和快捷连...

LongCat-Flash:5600亿参数 MoE 模型的效率与智能双重突破

01 Sep 2025

Contributed by Lukas

深入探讨美团LongCat团队发布的5600亿参数MoE语言模型LongCat-Flash。我们将解析其两大创新架构:零计算专家和快捷连...

AI自信深思:大语言模型推理效率与性能的飞跃

30 Aug 2025

Contributed by Lukas

深入探讨DeepConf这一创新方法,它如何通过模型内部的置信度信号,动态筛选低质量推理路径,显著提升大语言模型...

Step-Audio 2:赋能下一代智能语音交互

29 Aug 2025

Contributed by Lukas

本期节目深入探讨了Step-Audio 2,一个端到端的多模态大语音语言模型。我们将揭示它是如何通过创新的架构、海量...

VIBEVOICE深度解析:长篇多说话人语音合成的革命

26 Aug 2025

Contributed by Lukas

本期节目我们将深入探讨微软研究院推出的VIBEVOICE模型,一款专为长篇、多说话人对话式语音合成设计的创新技术...

DuPO:大语言模型自我验证的新范式

25 Aug 2025

Contributed by Lukas

深入探讨DuPO框架如何通过广义对偶学习实现大语言模型(LLM)的自我验证,摆脱昂贵的人工标注,提升翻译和数学...

AI Radio FM - 科技频道:ALIGNATT - 实时语音翻译的新突破

25 Aug 2025

Contributed by Lukas

本期节目深入探讨了ALIGNATT,一种利用注意力机制的音频-翻译对齐信息来指导实时语音翻译的新策略。我们揭示了...

流媒体Sortformer:基于到达顺序的说话人缓存实时说话人识别

23 Aug 2025

Contributed by Lukas

本期节目深入探讨了NVIDIA最新发布的“流媒体Sortformer”技术,这是一种基于说话人到达时间顺序的实时说话人识别...

AI电台FM:技术频道 - 实时全频带语音增强的混合DSP与深度学习方法

21 Aug 2025

Contributed by Lukas

本期节目深入探讨了实时全频带语音增强的突破性进展,特别是Mozilla公司Jean-Marc Valin提出的混合DSP与深度学习方法...

深度强化学习概览:从基础到前沿

20 Aug 2025

Contributed by Lukas

本期节目深入探讨了强化学习的各个方面,从核心概念、经典算法到前沿技术,旨在为听众提供一份全面且引人入...

AI前沿:ZipVoice - 极速高质零样本文本到语音的奥秘

19 Aug 2025

Contributed by Lukas

深入探讨ZipVoice,一个革命性的文本到语音模型!它如何通过紧凑的设计和创新的流匹配蒸馏技术,实现比现有技术...

智绘乾坤:揭秘通义Qwen-Image的视觉生成突破

18 Aug 2025

Contributed by Lukas

本期AI电台FM科技频道,我们将深入探讨阿里通义团队推出的Qwen-Image模型。从其在复杂文本渲染和精准图像编辑上的...

AI电台FM:露西:边缘运行智能体与动态思维向量的秘密

18 Aug 2025

Contributed by Lukas

本期节目深入探讨了Menlo Research的突破性项目“露西”,一个仅1.7亿参数的小型语言模型,如何通过创新的动态任务...

VeOmni:多模态大模型训练的革新者

14 Aug 2025

Contributed by Lukas

本期节目,我们将深入探讨字节跳动最新推出的VeOmni框架,它如何以模型为中心的分布式训练配方,高效扩展任意...

OpenCUA:开启通用计算机代理的新篇章

14 Aug 2025

Contributed by Lukas

本期播客深入探讨了OpenCUA框架,一个旨在为计算机使用代理(CUA)研究建立开放基础的创新项目。我们将详细解读...

SecoustiCodec:下一代流媒体语音编解码技术

13 Aug 2025

Contributed by Lukas

深入探讨开创性的语音编解码器SecoustiCodec,它通过解耦语义和副语言信息,实现了高保真、低比特率和实时流媒体...

Sortformer: AI革命性的语音识别新篇章

13 Aug 2025

Contributed by Lukas

在本期节目中,我们深入探讨了英伟达(NVIDIA)的创新模型Sortformer。我们将揭示它如何通过一种名为“排序损失”(So...

流式 Sortformer:实时语音日记的新突破

13 Aug 2025

Contributed by Lukas

深入探讨 NVIDIA 的最新研究“流式 Sortformer”,这是一种基于说话人缓存的在线说话人日志框架。我们将解析其核心...

Llasa+: 加速和流式语音合成的免费午餐

13 Aug 2025

Contributed by Lukas

本期节目,我们将深入探讨 Llasa+,这是一种基于 Llasa 模型构建的加速和流式文本到语音(TTS)模型。我们将讨论其...

FP4一路狂飙:全量化训练大型语言模型的新纪元

12 Aug 2025

Contributed by Lukas

本期播客深入探讨了一项开创性的研究,该研究首次实现了使用4比特浮点数(FP4)对大型语言模型进行全面的量化...

GLM-V:用强化学习打造通用多模态推理新标杆

12 Aug 2025

Contributed by Lukas

深入解读GLM-4.1V-Thinking和GLM-4.5V的技术报告。我们将探讨其创新的以推理为中心的训练框架,大规模强化学习中的挑...

GLM-4.5深度解析:智能体、推理与编码三位一体的AI新王者

12 Aug 2025

Contributed by Lukas

本期节目,我们深入探讨智谱AI和清华大学联合发布的GLM-4.5模型。这款拥有3550亿参数的开源巨兽,如何在智能体(...

'高效流式语言模型与注意力汇聚点'(Efficient Streaming Language Models with Attention Sinks)

06 Aug 2025

Contributed by Lukas

深入探讨的是一篇关于'高效流式语言模型与注意力汇聚点'(Efficient Streaming Language Models with Attention Sinks)的...

深入探讨OpenAI的开源新贵:gpt-oss-120b与20b模型

06 Aug 2025

Contributed by Lukas

本期节目,我们将深入探讨OpenAI最新发布的两个开源权重模型,gpt-oss-120b和gpt-oss-20b。我们将讨论它们的模型架构、...

MiDashengLM:用通用音频字幕重新定义音频AI

05 Aug 2025

Contributed by Lukas

深入探讨小米公司推出的开源音频语言模型MiDashengLM。我们探索其创新的“通用音频字幕”方法,该方法将语音、声...

深入解析CIF模型:语音识别领域的革命性突破

03 Aug 2025

Contributed by Lukas

在本期节目中,我们深入探讨了用于端到端语音识别的连续整合触发(CIF)模型。我们讨论了它如何解决传统注意...

IWSLT 2025 CUNI系统:Whisper与EuroLLM联手打造实时同声传译新高度

03 Aug 2025

Contributed by Lukas

本期播客深入探讨了查尔斯大学(CUNI)在IWSLT 2025同声传译任务中提交的创新系统。我们详细解读了他们如何将离线...

Simul-Whisper:让Whisper模型实现实时语音识别

03 Aug 2025

Contributed by Lukas

本期节目,我们深入探讨Simul-Whisper,一种无需微调即可将强大的Whisper模型应用于流式语音识别场景的创新策略。我...

Whispy: 让Whisper模型实现实时语音转写

03 Aug 2025

Contributed by Lukas

本期播客深入探讨了Whispy系统,这是一个旨在为强大的OpenAI Whisper模型赋予实时处理能力的创新框架。我们将讨论W...

实时转写革命:揭秘Whisper-Streaming技术

03 Aug 2025

Contributed by Lukas

本期节目深入探讨了Whisper-Streaming,一个创新的系统,它将强大的离线模型Whisper转变为实时转写工具。我们将详细...

“ThinkSound”——一个利用多模态大语言模型和思维链(CoT)推理来实现视频到音频生成和编辑的框架。

03 Aug 2025

Contributed by Lukas

大家好,欢迎收听AI Radio FM - Technology Channel,您的专属生成式AI播客!今天我们要深入探讨一个非常前沿的技术话题...

AI Radio FM - Technology Channel

02 Aug 2025

Contributed by Lukas

Exploring the cutting edge of AI and 3D world generation with HunyuanWorld 1.0.

CosyVoice 3 揭秘:迈向‘野生’语音合成的百万小时数据与十亿参数模型

31 Jul 2025

Contributed by Lukas

深入探讨阿里巴巴的 CosyVoice 3 模型。我们将剖析其关键创新,从新颖的语音分词器和强化学习技术,到其海量的数...

Step-Audio 2: The Next Leap in AI Speech Conversation

30 Jul 2025

Contributed by Lukas

In this episode, we dive deep into the Step-Audio 2 technical report. We explore how this end-to-end multi-modal large language model is revolutionizi...

OWSM v4: 数据致胜,开源语音模型的飞跃

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了最新的OWSM v4语音模型。我们讨论了该项目如何通过整合并深度清洗大规模网络爬取数据集YODAS...

ESPnet-SpeechLM:解密开源语音语言模型工具包

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了ESPnet-SpeechLM,这是一个旨在简化和普及语音语言模型(SpeechLMs)开发的开源工具包。我们讨论...

ESPnet:重塑语音识别的端到端革命

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了开创性的开源工具包ESPnet。我们将讨论它如何通过其创新的混合CTC/Attention端到端架构,彻底简...

WeNet 2.0:深入解析生产级端到端语音识别工具

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了WeNet 2.0,这是一个面向生产环境的端到端语音识别工具包。我们详细讨论了其四大核心更新:...

WeNet: 统一流式与非流式语音识别的生产级解决方案

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了名为WeNet的开源语音识别工具包。我们将详细解析其创新的U2架构如何巧妙地统一流式和非流式...

DeSTA2.5-Audio:通过自生成对齐打造通用大型音频语言模型

29 Jul 2025

Contributed by Lukas

本期节目深入探讨了DeSTA2.5-Audio,这是一种创新的大型音频语言模型。我们讨论了它如何通过“自生成”策略解决灾...

AI广播电台FM - 科技频道:深入解析GLM-4.5 - 新一代统一大模型

29 Jul 2025

Contributed by Lukas

在本期节目中,我们将深入探讨智谱AI发布的最新旗舰模型:GLM-4.5和GLM-4.5-Air。我们将讨论它们如何致力于将推理、...

VALL-E 2: 实现人类水平的零样本语音合成

28 Jul 2025

Contributed by Lukas

本期播客深入探讨了VALL-E 2,这是一种开创性的文本到语音(TTS)模型,首次实现了人类水平的零样本语音合成。我...

MusicGen:简单可控的音乐生成模型

26 Jul 2025

Contributed by Lukas

本期播客深入探讨了Meta AI的研究论文《MusicGen: Simple and Controllable Music Generation》。我们讨论了MusicGen如何通过单级语...

EmergentTTS-Eval: 彻底改变语音合成模型的评估方式

25 Jul 2025

Contributed by Lukas

深入探讨创新的 EmergentTTS-Eval 基准测试,它如何通过复杂的测试和AI裁判来评估最先进的文本转语音(TTS)模型,并揭...

深入探讨Boson AI的Higgs Audio V2:开源音频生成的革命

24 Jul 2025

Contributed by Lukas

在本期节目中,我们将深入探讨Boson AI最新发布的开源音频生成模型——Higgs Audio V2。我们将讨论其突破性的多说话...

揭秘字节跳动Seed LiveInterpret 2.0:AI同声传译的革命

24 Jul 2025

Contributed by Lukas

本期播客深入探讨字节跳动发布的最新研究成果——Seed LiveInterpret 2.0。这不仅仅是一个翻译工具,更是一个能实现...

揭秘Fast Conformer:更快、更强、更可扩展的语音识别新架构

24 Jul 2025

Contributed by Lukas

在本期节目中,我们将深入探讨Fast Conformer模型,这是一种革命性的语音处理架构。我们将讨论其核心的下采样技术...

深入解析Seed-X:70亿参数模型如何挑战GPT-4o的翻译霸权

23 Jul 2025

Contributed by Lukas

深入探讨全新的开源多语言翻译模型Seed-X。我们将剖析其创新的训练流程,从数据准备、预训练策略,到思维链和...

Page 1 of 5 Next → »»