AI Podcast

OWSM v4: 数据致胜，开源语音模型的飞跃

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了最新的OWSM v4语音模型。我们讨论了该项目如何通过整合并深度清洗大规模网络爬取数据集YODAS...

ESPnet-SpeechLM：解密开源语音语言模型工具包

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了ESPnet-SpeechLM，这是一个旨在简化和普及语音语言模型（SpeechLMs）开发的开源工具包。我们讨论...

ESPnet：重塑语音识别的端到端革命

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了开创性的开源工具包ESPnet。我们将讨论它如何通过其创新的混合CTC/Attention端到端架构，彻底简...

WeNet 2.0：深入解析生产级端到端语音识别工具

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了WeNet 2.0，这是一个面向生产环境的端到端语音识别工具包。我们详细讨论了其四大核心更新：...

WeNet: 统一流式与非流式语音识别的生产级解决方案

30 Jul 2025

Contributed by Lukas

本期播客深入探讨了名为WeNet的开源语音识别工具包。我们将详细解析其创新的U2架构如何巧妙地统一流式和非流式...

DeSTA2.5-Audio：通过自生成对齐打造通用大型音频语言模型

29 Jul 2025

Contributed by Lukas

本期节目深入探讨了DeSTA2.5-Audio，这是一种创新的大型音频语言模型。我们讨论了它如何通过“自生成”策略解决灾...

AI广播电台FM - 科技频道：深入解析GLM-4.5 - 新一代统一大模型

29 Jul 2025

Contributed by Lukas

在本期节目中，我们将深入探讨智谱AI发布的最新旗舰模型：GLM-4.5和GLM-4.5-Air。我们将讨论它们如何致力于将推理、...

VALL-E 2: 实现人类水平的零样本语音合成

28 Jul 2025

Contributed by Lukas

本期播客深入探讨了VALL-E 2，这是一种开创性的文本到语音（TTS）模型，首次实现了人类水平的零样本语音合成。我...

MusicGen：简单可控的音乐生成模型

26 Jul 2025

Contributed by Lukas

本期播客深入探讨了Meta AI的研究论文《MusicGen: Simple and Controllable Music Generation》。我们讨论了MusicGen如何通过单级语...

EmergentTTS-Eval: 彻底改变语音合成模型的评估方式

25 Jul 2025

Contributed by Lukas

深入探讨创新的 EmergentTTS-Eval 基准测试，它如何通过复杂的测试和AI裁判来评估最先进的文本转语音(TTS)模型，并揭...

深入探讨Boson AI的Higgs Audio V2：开源音频生成的革命

24 Jul 2025

Contributed by Lukas

在本期节目中，我们将深入探讨Boson AI最新发布的开源音频生成模型——Higgs Audio V2。我们将讨论其突破性的多说话...

揭秘字节跳动Seed LiveInterpret 2.0：AI同声传译的革命

24 Jul 2025

Contributed by Lukas

本期播客深入探讨字节跳动发布的最新研究成果——Seed LiveInterpret 2.0。这不仅仅是一个翻译工具，更是一个能实现...

揭秘Fast Conformer：更快、更强、更可扩展的语音识别新架构

24 Jul 2025

Contributed by Lukas

在本期节目中，我们将深入探讨Fast Conformer模型，这是一种革命性的语音处理架构。我们将讨论其核心的下采样技术...

深入解析Seed-X：70亿参数模型如何挑战GPT-4o的翻译霸权

23 Jul 2025

Contributed by Lukas

深入探讨全新的开源多语言翻译模型Seed-X。我们将剖析其创新的训练流程，从数据准备、预训练策略，到思维链和...

MirageLSD: 实时无限AI视频生成的革命

18 Jul 2025

Contributed by Lukas

本期节目深入探讨了Decart发布的革命性AI视频模型MirageLSD。我们讨论了它如何实现零延迟、实时、无限的视频流生成...

深入解析Audio Flamingo 3：开启全开源音频大模型新纪元

18 Jul 2025

Contributed by Lukas

本期节目，我们将深入探讨英伟达最新发布的Audio Flamingo 3模型。这是一款完全开源的、业界领先的大型音频语言模...

AI模型真的需要“三思而后行”吗？深入解析NoWait技术

15 Jul 2025

Contributed by Lukas

在本期节目中，我们深入探讨了一篇名为《我们不需要“等待”！》的前沿研究论文。该论文提出了一种名为“NoW...

天工-VL奖励模型：多模态对齐新篇章

15 Jul 2025

Contributed by Lukas

深入探讨天工-VL奖励模型(Skywork-VL Reward)，本期播客将详细解析其创新的数据集构建方法、独特的模型架构，以及在...

WebSailor：引领超越人类推理的网络智能体

14 Jul 2025

Contributed by Lukas

在本期节目中，我们将深入探讨来自阿里巴巴通义实验室的最新研究成果 WebSailor。该研究提出了一套完整的后训练...

CCQ：压缩巨兽 - 两比特大语言模型的革命

14 Jul 2025

Contributed by Lukas

本期播客深入探讨了名为CCQ（卷积码量化）的突破性技术。面对大型语言模型（LLMs）日益增长的部署成本和障碍，...

Skywork-R1V3: 革命性的多模态推理与强化学习

10 Jul 2025

Contributed by Lukas

深入探讨Skywork-R1V3技术报告，揭示其如何通过强化学习解锁顶尖的视觉推理能力。本期节目将剖析其独特的训练框...

AI新范式：解读Fast and Simplex 2-单纯注意力

09 Jul 2025

Contributed by Lukas

本期节目，我们深入探讨一篇名为《Fast and Simplex: 2-Simplicial Attention in Triton》的前沿论文，讨论它如何通过提升词元...

OmniAvatar：用音频驱动的全身动画革命

08 Jul 2025

Contributed by Lukas

在本期节目中，我们深入探讨了 OmniAvatar，一个开创性的音频驱动全身视频生成模型。我们讨论了它如何通过创新的...

HumanOmniV2: 超越理解，迈向全模态推理

08 Jul 2025

Contributed by Lukas

深入探讨HumanOmniV2论文，讨论其如何通过强制模型在推理前理解上下文，来解决多模态AI中的“捷径问题”。我们将...

深入剖析GLM-4.1V-Thinking：迈向通用多模态推理的新篇章

08 Jul 2025

Contributed by Lukas

在本期节目中，我们将深入探讨一款名为GLM-4.1V-Thinking的全新视觉语言模型。我们将详细解析其独特的以推理为核心...

IndexTTS2：革新语音合成的情感与时长控制

07 Jul 2025

Contributed by Lukas

深入探讨开创性的文本转语音模型IndexTTS2。我们讨论了它在自回归系统中精确控制语音时长的独特能力、其将声音...

Kwai Keye-VL: 赋能短视频时代的80亿参数多模态大模型

06 Jul 2025

Contributed by Lukas

深入探讨 Kwai Keye-VL 技术报告。我们将探讨其创新的架构、独特的四阶段预训练和两阶段后训练方法，以及其最先进...

WavReward：教会AI“察言观色”的秘密武器

04 Jul 2025

Contributed by Lukas

本期播客深入探讨了WavReward，一个专为评估端到端语音对话模型而设计的创新奖励模型。我们讨论了当前评估方法...

MirrorMe: 实时高保真音频驱动的半身数字人动画

02 Jul 2025

Contributed by Lukas

本期节目深入探讨了MirrorMe框架，一个旨在解决实时、高保真、可控的音频驱动数字人动画挑战的先进技术。我们将...

深入解读文心大模型4.5技术报告

01 Jul 2025

Contributed by Lukas

在本期节目中，我们将深入探讨百度最新发布的ERNIE 4.5技术报告。我们将解析其创新的多模态异构混合专家（MoE）...

GUIRoboTron-Speech：用声音操控万物，AI交互新革命

01 Jul 2025

Contributed by Lukas

在本期节目中，我们将深入探讨 GUIRoboTron-Speech，这是首个能够直接通过语音指令和屏幕截图来操作手机和电脑的端...

Stream-Omni: 高效灵活的多模态交互新范式

29 Jun 2025

Contributed by Lukas

深入探讨Stream-Omni模型，解析其如何创新性地对齐文本、视觉和语音。我们将讨论其独特的架构、高效的训练过程，...

让他们开口：音频驱动的多人对话视频生成

28 Jun 2025

Contributed by Lukas

本期节目深入探讨了名为MultiTalk的创新框架，该框架专注于一项全新任务：音频驱动的多人对话视频生成。我们讨...

深入探讨OmniGen2：迈向高级多模态生成

26 Jun 2025

Contributed by Lukas

本期节目，我们深入探讨了OmniGen2这一先进的开源多模态生成模型，涵盖其创新的模型架构、独特的数据集构建策略...

深入探讨Ming-Omni：统一多模态感知与生成模型

23 Jun 2025

Contributed by Lukas

本期播客将深入探讨 Ming-Omni，一个统一的多模态模型，它能够处理图像、文本、音频和视频，并在语音和图像生成...

揭秘混元视频数字人：高保真音频驱动的多角色动画技术

20 Jun 2025

Contributed by Lukas

深入探讨腾讯混元最新的HunyuanVideo-Avatar技术，它如何通过创新的角色图像注入、音频情感模块和面部感知音频适配...

AdaMesh深入解析：个性化3D面部动画的革新

16 Jun 2025

Contributed by Lukas

本期AI Radio FM技术频道，我们邀请专家weedge与主持人共同探讨AdaMesh技术。AdaMesh能够从短短10秒的参考视频中学习个...

EmoTalk：语音驱动的3D人脸动画情感解耦技术深度解析

16 Jun 2025

Contributed by Lukas

本期播客深入探讨了EmoTalk技术，一种旨在从语音中解耦内容和情感，以生成富有表现力的3D人脸动画的端到端神经...

TaoAvatar：实时逼真的全身对话虚拟化身与增强现实

16 Jun 2025

Contributed by Lukas

本期播客深入探讨了 TaoAvatar 技术，一种基于三维高斯散点的实时、逼真全身对话虚拟化身创建方法，特别关注其在...

LAM解读：单张图片生成可动高斯头部模型的革命

16 Jun 2025

Contributed by Lukas

深入探讨LAM（大型虚拟形象模型）如何通过单张图像实现可立即动画化和渲染的高斯头部模型。我们将讨论其创新...

MuseTalk专题：实时高保真视频配音的革新

16 Jun 2025

Contributed by Lukas

深入探讨MuseTalk如何通过创新的时空采样策略和两阶段训练框架，解决视频配音中的“三难困境”，实现实时、高保...

文本语音驱动的全身动画技术深度解析

16 Jun 2025

Contributed by Lukas

本期节目深入探讨了一项前沿的全身动画合成系统，该系统能够根据输入的文本和语音实时生成逼真的面部表情和...

深入探讨对数线性注意力机制

10 Jun 2025

Contributed by Lukas

本期播客，我们深入探讨了一篇关于“对数线性注意力”（Log-Linear Attention）的最新研究论文，这是一种旨在平衡传...

AI Radio FM - 技术频道：深入探讨Skywork R1V2的多模态混合强化学习推理

09 Jun 2025

Contributed by Lukas

本期播客深入探讨了下一代多模态推理模型 Skywork R1V2。我们讨论了其核心的混合强化学习范式（MPO 和 GRPO 的结合）...

ReTool深度解析：强化学习赋能大语言模型战略性工具应用

07 Jun 2025

Contributed by Lukas

本期播客深入探讨ReTool框架，解析其如何通过强化学习，特别是结合代码解释器，显著提升大语言模型在复杂数学...

AI Radio FM：深入探讨Search-R1——用强化学习训练大语言模型掌握推理与搜索

06 Jun 2025

Contributed by Lukas

本期节目，我们深入探讨了最新的研究Search-R1，它提出了一种创新的强化学习框架，旨在训练大语言模型（LLM）在...

深入探讨强化学习在推理搜索型LLM智能体中的应用

06 Jun 2025

Contributed by Lukas

本期节目，我们将深入探讨一篇关于强化学习（RL）在训练大型语言模型（LLM）进行复杂推理和与搜索引擎交互的实...

深入探讨StreamRL：大规模语言模型强化学习的革新之路

06 Jun 2025

Contributed by Lukas

本期播客深入探讨了StreamRL这一创新的强化学习框架，它如何通过解耦架构优化大规模语言模型的训练，解决资源耦...

ProRL: 延长强化学习拓展大语言模型推理边界

03 Jun 2025

Contributed by Lukas

深入探讨ProRL（Prolonged Reinforcement Learning）如何通过延长强化学习训练，结合KL散度控制、参考策略重置和多样化任...

深入剖析DAPO：大规模开源LLM强化学习系统

02 Jun 2025

Contributed by Lukas

本期播客深入探讨了DAPO（解耦裁剪与动态采样策略优化）算法，这是一个在Qwen2.5-32B基础模型上实现AIME 2024测试50分...

HybridFlow：灵活高效的RLHF框架深度解析

02 Jun 2025

Contributed by Lukas

本期节目深入探讨了HybridFlow框架，这是一个旨在提高大型语言模型（LLM）通过人类反馈进行强化学习（RLHF）的灵活...

揭秘AceReason-Nemotron：强化学习如何革新AI数学与代码推理

02 Jun 2025

Contributed by Lukas

深入探讨AceReason-Nemotron研究，解析通过强化学习提升中小型模型数学和代码推理能力的创新方法、数据管理策略以...

深入探讨Tülu 3：开放语言模型后训练的新前沿

02 Jun 2025

Contributed by Lukas

本期节目，我们将与AI专家Weedge一起，深入探讨艾伦人工智能研究所发布的Tülu 3系列模型。我们将详细解析其创新...

深入探讨DeepSeekMath：开源语言模型数学推理的新高峰

02 Jun 2025

Contributed by Lukas

本期节目，我们深入探讨了DeepSeekMath的最新研究，这是一款在数学推理领域取得突破性进展的开源语言模型。我们...

深入探讨小米MiMo-VL：下一代视觉语言模型

01 Jun 2025

Contributed by Lukas

本期AI广播FM技术频道，我们与技术专家weedge一同深入探讨小米最新发布的MiMo-VL技术报告，解析其强大的视觉理解、...

MiMo-7B：解锁语言模型的推理潜力

01 Jun 2025

Contributed by Lukas

本期节目深入探讨了MiMo-7B模型，一个专为推理任务而生的大语言模型。我们讨论了其从预训练到后训练的全方位优...

深入探讨Atlas：学习在测试时优化记忆上下文

31 May 2025

Contributed by Lukas

本期节目，我们将深入探讨名为“Atlas”的最新研究，它提出了一种新颖的方法来优化序列模型中的长期记忆。我们...

深入探讨Linear-MoE：线性序列建模与专家混合的结合

30 May 2025

Contributed by Lukas

本期AI Radio FM科技频道，我们与技术专家weedge一起，深入探讨了Linear-MoE这一创新的大规模模型架构。我们将讨论其...

BAGEL模型：统一多模态预训练的新里程碑

26 May 2025

Contributed by Lukas

本期节目深入探讨了BAGEL模型，这是一个开源的基础模型，通过在万亿级多模态交错数据上进行预训练，展现了在复...

深入探讨LoRA：大型语言模型的低秩适应技术

25 May 2025

Contributed by Lukas

本期播客将深入探讨LoRA（Low-Rank Adaptation）技术，一种用于高效适应大型语言模型的新方法。我们将讨论LoRA如何解...

深入剖析Phi-4推理：微软的新一代小型推理语言模型

23 May 2025

Contributed by Lukas

本期播客将深入探讨微软最新发布的Phi-4-reasoning和Phi-4-reasoning-plus技术报告。我们将讨论这些140亿参数模型的训练方...

探索小型推理语言模型的极限：Phi-4-Mini-Reasoning 的数学能力

23 May 2025

Contributed by Lukas

本期播客深入探讨了微软的研究论文“Phi-4-Mini-Reasoning：探索小型推理语言模型在数学领域的极限”。我们讨论了如...

AI Radio FM - 科技频道：深入探讨 Phi-4-Mini 与 Phi-4-Multimodal

23 May 2025

Contributed by Lukas

本期节目，我们深入剖析微软最新推出的紧凑型多模态语言模型 Phi-4-Mini 和 Phi-4-Multimodal。我们将探讨它们的创新架...

深入探讨神经网络的量化与训练：实现高效纯整数算术推理

22 May 2025

Contributed by Lukas

本期播客深入探讨一篇关于神经网络量化方案的论文，该方案允许仅使用整数算术进行推理，从而在移动设备上实...

深入探讨 Gemma 3：谷歌的最新轻量级开放模型

22 May 2025

Contributed by Lukas

本期节目深入剖析了谷歌最新发布的 Gemma 3 系列模型。我们探讨了其多模态能力、128K长上下文处理、创新的模型架...

S1模型：简单测试时扩展与高效推理

22 May 2025

Contributed by Lukas

本期AI广播调频深入探讨S1论文，揭示了如何通过精心策划的千样本数据集s1K和创新的预算强制技术，实现语言模型...

MatFormer：弹性推理的嵌套Transformer

22 May 2025

Contributed by Lukas

本期播客深入探讨了MatFormer，一种新颖的Transformer架构，通过其嵌套设计实现弹性推理。我们讨论了它的结构、训练...

SmolLM2探秘：小模型的大作为

21 May 2025

Contributed by Lukas

深入探讨SmolLM2，一个17亿参数的小型语言模型，如何通过以数据为中心的训练和创新的数据集构建，在性能上超越...

Dolphin 模型：文档图像解析的革新之路

21 May 2025

Contributed by Lukas

本期播客深入探讨了 Dolphin 模型，一种采用异构锚点提示的创新文档图像解析方法。我们将讨论其独特的“先分析...

SmolDocling：超紧凑文档转换的AI新星

21 May 2025

Contributed by Lukas

本期节目，我们将深入探讨SmolDocling，一个颠覆性的超紧凑视觉语言模型，它如何实现端到端的多模态文档转换，以...

SmolVLM 深度解析：小模型，大作为！重新定义高效多模态AI

21 May 2025

Contributed by Lukas

本期AI Radio FM科技频道，我们深入探讨SmolVLM这一系列开创性的小型多模态模型。了解它们如何在极低的资源消耗下...

AI Radio FM - Technology Channel: MobileCLIP - 快速高效的图文模型与多模态强化训练

20 May 2025

Contributed by Lukas

本期播客将深入探讨 MobileCLIP，这是一系列专为移动设备优化的新型高效图文模型。我们将讨论其创新的多模态强化...

FastViT 探秘：速度与精度并存的混合视觉Transformer

20 May 2025

Contributed by Lukas

本期节目深入探讨苹果公司最新推出的FastViT模型。我们将揭示其核心创新点，如RepMixer、训练时过参数化和大型卷...

视觉指令调优：LLaVA的探索与实践

19 May 2025

Contributed by Lukas

本期AI广播FM科技频道，我们深入探讨开创性的“视觉指令调优”技术，特别是LLaVA模型。我们将讨论它如何通过GPT...

FastVLM：视觉语言模型的高效视觉编码革命

19 May 2025

Contributed by Lukas

本期节目，我们深入探讨 FastVLM，这是一种创新的视觉语言模型，它通过新颖的 FastViTHD 混合视觉编码器，在处理高...

深入剖析MiniMax-Speech：引领TTS新时代的语音合成技术

17 May 2025

Contributed by Lukas

本期节目，我们将深入探讨MiniMax-Speech，一款基于自回归Transformer的文本转语音模型。我们将揭示其可学习说话人编...

AI Radio FM - 科技频道：快速文本到音频生成的对抗性后训练技术 ARC 深度解析

17 May 2025

Contributed by Lukas

本期 AI Radio FM 科技频道，我们深入探讨了创新的 ARC (对抗性相对性对比) 后训练技术，该技术旨在大幅提升文本到...

深入探讨DeepSeek-V3：扩展挑战与AI硬件架构的反思

16 May 2025

Contributed by Lukas

本期播客深入剖析了DeepSeek-V3模型，探讨了其在扩展性方面面临的挑战，以及对未来人工智能硬件架构的深刻反思。...

FastVLM：视觉语言模型的高效视觉编码

15 May 2025

Contributed by Lukas

本期节目深入探讨 FastVLM，一种旨在优化视觉语言模型（VLM）中图像编码效率的新模型。我们将讨论 FastVLM 如何通过...

深入解析Qwen3：通义千问的最新力作！

14 May 2025

Contributed by Lukas

本期节目，我们将深入探讨通义千问团队最新发布的Qwen3系列大语言模型。从创新的“思考模式”与“非思考模式”...

深入探讨 EAGLE-3：通过训练时测试扩展大语言模型推理加速

13 May 2025

Contributed by Lukas

本期节目深入探讨了 EAGLE-3 研究论文，讨论了其如何通过创新的训练时测试技术和多层特征融合，显著提升大语言...

EAGLE: 更高效的 LLM 推理推测采样

12 May 2025

Contributed by Lukas

深入探讨 EAGLE 框架，一种新颖的推测采样技术，旨在解决大型语言模型 (LLM) 推理速度慢的问题。了解 EAGLE 如何通...

AI Radio FM: 多词元预测 - 训练更快更好的大语言模型

12 May 2025

Contributed by Lukas

本期节目探讨了“多词元预测”这一训练大语言模型的新方法。我们讨论了该方法如何通过同时预测多个未来词元...

加速自回归模型：深入探讨分块并行解码

12 May 2025

Contributed by Lukas

深入探讨 Mitchell Stern、Noam Shazeer 和 Jakob Uszkoreit 提出的分块并行解码技术，了解其如何显著提升 Transformer 等模型的...

VITA-Audio: 实时语音交互的未来之声

08 May 2025

Contributed by Lukas

本期节目深入探讨 VITA-Audio 技术，一种旨在解决大型语音语言模型高延迟问题的创新方法，特别是其核心的 MCTP 模...

TDT模型：联合预测词元与时长的序列转换技术革新

07 May 2025

Contributed by Lukas

深入探讨新颖的TDT（词元与时长转换器）模型架构，它如何通过联合预测词元及其时长，在语音识别、语音翻译和...

深入剖析Fast Conformer：高效语音识别的新篇章

07 May 2025

Contributed by Lukas

本期播客将深入探讨Fast Conformer模型，一个在Conformer基础上进行了革新性设计，旨在提升语音处理任务训练和推理效...

Whisper: 通过大规模弱监督实现鲁棒语音识别

06 May 2025

Contributed by Lukas

深入探讨OpenAI的Whisper模型，该模型通过在68万小时的多语言、多任务弱监督数据上进行训练，实现了革命性的零样...

DeepSeek-Prover-V2: 形式化数学推理的新篇章

01 May 2025

Contributed by Lukas

本期节目深入探讨 DeepSeek-AI 开源的 DeepSeek-Prover-V2 模型。我们讨论了它如何利用 DeepSeek-V3 进行子目标分解，结合强...

Step1X-Edit：缩小开源与闭源图像编辑差距

28 Apr 2025

Contributed by Lukas

本期节目深入探讨了最新的开源图像编辑模型 Step1X-Edit。我们将讨论其创新的数据创建流程、模型架构、全新的 GE...

AI Radio FM: 深入探讨UI-TARS - 下一代原生GUI智能体

28 Apr 2025

Contributed by Lukas

本期AI Radio FM深入探讨了UI-TARS这篇开创性的论文，讨论了原生图形用户界面（GUI）智能体的演进、核心能力以及UI-...

AI Radio FM - Technology Channel: MoonCast 播客生成技术深度解析

26 Apr 2025

Contributed by Lukas

深入探讨 MoonCast 技术，一个用于高质量零样本播客生成的解决方案。讨论其如何解决长语音和自发性对话的挑战，...

Kimi-Audio 技术报告深度解读

26 Apr 2025

Contributed by Lukas

深入探讨 Kimi-Audio，一个开源的音频基础模型。我们将讨论其架构、数据处理、训练方法、评估结果以及未来的挑战...

深入探讨MAGI-1：下一代自回归视频生成模型

22 Apr 2025

Contributed by Lukas

本期节目，我们深入探讨了Sand AI的最新研究成果MAGI-1，一个大规模自回归视频生成模型。我们讨论了它的核心原理...

深入探讨MagiAttention：为超长上下文和异构掩码训练实现线性可扩展性

22 Apr 2025

Contributed by Lukas

本期AI Radio FM - 技术频道，我们将深入探讨MagiAttention，这是一种创新的分布式注意力机制，旨在解决训练具有超长...

AI Radio FM: 深入探讨 BitNet b1.58 2B4T - 首个开源原生1比特大语言模型

19 Apr 2025

Contributed by Lukas

在本期 AI Radio FM - 技术频道中，我们深入探讨了 BitNet b1.58 2B4T 的技术报告。这是一款开创性的 20 亿参数、原生 1 比...

Muon 优化器：扩展大语言模型训练的新前沿

12 Apr 2025

Contributed by Lukas

本期 AI Radio FM - Technology Channel 深入探讨了基于矩阵正交化的 Muon 优化器如何通过关键技术扩展到大规模语言模型训...

Kimi-VL: 高效开源混合专家视觉语言模型

10 Apr 2025

Contributed by Lukas

本播客将深入探讨 Kimi-VL，一款高效的开源混合专家（MoE）视觉语言模型（VLM）。它在多模态推理、长文本理解和强...

WavChat：语音对话模型综述

07 Apr 2025

Contributed by Lukas

深入探讨语音对话模型的最新进展，涵盖语音表示、训练范式、流媒体、双工和交互能力。

AI Radio FM: WavTokenizer - 极致压缩与高保真音频编码新突破

07 Apr 2025

Contributed by Lukas

本期节目深入探讨WavTokenizer，一种创新的音频编解码器，它利用单一量化器实现了前所未有的压缩率，同时保持了...

Activity Overview

Episodes

OWSM v4: 数据致胜，开源语音模型的飞跃

ESPnet-SpeechLM：解密开源语音语言模型工具包

ESPnet：重塑语音识别的端到端革命

WeNet 2.0：深入解析生产级端到端语音识别工具

WeNet: 统一流式与非流式语音识别的生产级解决方案

DeSTA2.5-Audio：通过自生成对齐打造通用大型音频语言模型

AI广播电台FM - 科技频道：深入解析GLM-4.5 - 新一代统一大模型

VALL-E 2: 实现人类水平的零样本语音合成

MusicGen：简单可控的音乐生成模型

EmergentTTS-Eval: 彻底改变语音合成模型的评估方式

深入探讨Boson AI的Higgs Audio V2：开源音频生成的革命

揭秘字节跳动Seed LiveInterpret 2.0：AI同声传译的革命

揭秘Fast Conformer：更快、更强、更可扩展的语音识别新架构

深入解析Seed-X：70亿参数模型如何挑战GPT-4o的翻译霸权

MirageLSD: 实时无限AI视频生成的革命

深入解析Audio Flamingo 3：开启全开源音频大模型新纪元

AI模型真的需要“三思而后行”吗？深入解析NoWait技术

天工-VL奖励模型：多模态对齐新篇章

WebSailor：引领超越人类推理的网络智能体

CCQ：压缩巨兽 - 两比特大语言模型的革命

Skywork-R1V3: 革命性的多模态推理与强化学习

AI新范式：解读Fast and Simplex 2-单纯注意力

OmniAvatar：用音频驱动的全身动画革命

HumanOmniV2: 超越理解，迈向全模态推理

深入剖析GLM-4.1V-Thinking：迈向通用多模态推理的新篇章

IndexTTS2：革新语音合成的情感与时长控制

Kwai Keye-VL: 赋能短视频时代的80亿参数多模态大模型

WavReward：教会AI“察言观色”的秘密武器

MirrorMe: 实时高保真音频驱动的半身数字人动画

深入解读文心大模型4.5技术报告

GUIRoboTron-Speech：用声音操控万物，AI交互新革命

Stream-Omni: 高效灵活的多模态交互新范式

让他们开口：音频驱动的多人对话视频生成

深入探讨OmniGen2：迈向高级多模态生成

深入探讨Ming-Omni：统一多模态感知与生成模型

揭秘混元视频数字人：高保真音频驱动的多角色动画技术

AdaMesh深入解析：个性化3D面部动画的革新

EmoTalk：语音驱动的3D人脸动画情感解耦技术深度解析

TaoAvatar：实时逼真的全身对话虚拟化身与增强现实

LAM解读：单张图片生成可动高斯头部模型的革命

MuseTalk专题：实时高保真视频配音的革新

文本语音驱动的全身动画技术深度解析

深入探讨对数线性注意力机制

AI Radio FM - 技术频道：深入探讨Skywork R1V2的多模态混合强化学习推理

ReTool深度解析：强化学习赋能大语言模型战略性工具应用

AI Radio FM：深入探讨Search-R1——用强化学习训练大语言模型掌握推理与搜索

深入探讨强化学习在推理搜索型LLM智能体中的应用

深入探讨StreamRL：大规模语言模型强化学习的革新之路

ProRL: 延长强化学习拓展大语言模型推理边界

深入剖析DAPO：大规模开源LLM强化学习系统

HybridFlow：灵活高效的RLHF框架深度解析

揭秘AceReason-Nemotron：强化学习如何革新AI数学与代码推理

深入探讨Tülu 3：开放语言模型后训练的新前沿

深入探讨DeepSeekMath：开源语言模型数学推理的新高峰

深入探讨小米MiMo-VL：下一代视觉语言模型

MiMo-7B：解锁语言模型的推理潜力

深入探讨Atlas：学习在测试时优化记忆上下文

深入探讨Linear-MoE：线性序列建模与专家混合的结合

BAGEL模型：统一多模态预训练的新里程碑

深入探讨LoRA：大型语言模型的低秩适应技术

深入剖析Phi-4推理：微软的新一代小型推理语言模型

探索小型推理语言模型的极限：Phi-4-Mini-Reasoning 的数学能力

AI Radio FM - 科技频道：深入探讨 Phi-4-Mini 与 Phi-4-Multimodal

深入探讨神经网络的量化与训练：实现高效纯整数算术推理

深入探讨 Gemma 3：谷歌的最新轻量级开放模型

S1模型：简单测试时扩展与高效推理

MatFormer：弹性推理的嵌套Transformer

SmolLM2探秘：小模型的大作为

Dolphin 模型：文档图像解析的革新之路

SmolDocling：超紧凑文档转换的AI新星

SmolVLM 深度解析：小模型，大作为！重新定义高效多模态AI

AI Radio FM - Technology Channel: MobileCLIP - 快速高效的图文模型与多模态强化训练

FastViT 探秘：速度与精度并存的混合视觉Transformer

视觉指令调优：LLaVA的探索与实践

FastVLM：视觉语言模型的高效视觉编码革命

深入剖析MiniMax-Speech：引领TTS新时代的语音合成技术

AI Radio FM - 科技频道：快速文本到音频生成的对抗性后训练技术 ARC 深度解析