AI Podcast
Episodes
AI Radio FM - 跨越对话语音的“恐怖谷”
18 Mar 2025
Contributed by Lukas
探索Sesame研究团队如何通过情感智能、对话动态、上下文感知和一致的个性,实现“语音存在”,使数字语音助手...
AI语音增强新突破:LLaSE-G1模型深度解析
18 Mar 2025
Contributed by Lukas
本期播客深入探讨了基于LLaMA的语音增强模型LLaSE-G1,该模型如何通过最大化声学信息保留和统一多任务处理,在噪...
AI Radio FM - 探索音频大语言模型中的思维链推理
17 Mar 2025
Contributed by Lukas
本期播客深入探讨了将思维链(CoT)推理整合到大型音频语言模型(LALM)中,以增强其在声音、音乐和语音领域的...
AI Radio FM - 深度音频推理
17 Mar 2025
Contributed by Lukas
本期播客深入探讨了Audio-Reasoner模型,这是一个大型音频语言模型,专为音频任务中的深度推理而设计。我们讨论了...
AI Radio FM - 强化学习与音频问答
17 Mar 2025
Contributed by Lukas
本期播客探讨了强化学习(RL)在音频问答(AQA)任务中的应用,以及如何通过小组相对策略优化(GRPO)算法提升...
AI Radio FM - 揭秘StreamingLLM:无限长度文本处理的革新
16 Mar 2025
Contributed by Lukas
本期播客深入探讨了StreamingLLM,这是一种新的大型语言模型(LLM)框架,它解决了在流式应用中部署LLM的关键挑战...
AI透视:Transformer架构新变革 - 无需归一化
15 Mar 2025
Contributed by Lukas
本期播客深入探讨了一种名为Dynamic Tanh (DyT) 的新型技术,该技术有望取代Transformer模型中的归一化层。我们将讨论...
AI Radio FM - Technology Channel
15 Mar 2025
Contributed by Lukas
深入探讨超大规模语言模型训练的播客,从单GPU到数千GPU集群,涵盖内存优化、计算效率和通信开销等关键挑战。
AI Radio FM - Technology Channel
13 Mar 2025
Contributed by Lukas
深入探讨超大规模语言模型训练:从单GPU到GPU集群的旅程
AI Radio FM - 探索InspireMusic:高保真长音乐生成框架
13 Mar 2025
Contributed by Lukas
本期播客深入探讨InspireMusic,一个结合了超分辨率和大型语言模型的高保真长音乐生成框架。我们将讨论其独特之...
AI Radio FM - 揭秘 Gemma 3
12 Mar 2025
Contributed by Lukas
深入探讨谷歌 DeepMind 最新的 Gemma 3 多模态开放模型系列,包括其架构、训练过程、性能以及安全措施。
AI Radio FM - Technology Channel - 解密Comet:MoE的精细计算通信重叠技术
12 Mar 2025
Contributed by Lukas
本期播客深入探讨了Comet,这是一种为混合专家模型(MoE)设计的优化系统,通过精细的计算与通信重叠,显著提高...
AI Radio FM - 深入探索Flux:GPU上的快速通信重叠技术
12 Mar 2025
Contributed by Lukas
本期播客深入探讨Flux,一种通过内核融合在GPU上实现快速软件通信重叠的新方法。Flux通过将通信和计算操作分解为...
AI Radio FM - 揭秘YourTTS:零样本多说话人语音合成与语音转换的新突破
12 Mar 2025
Contributed by Lukas
本期播客深入探讨YourTTS,一个基于VITS模型并进行多项创新改进的零样本多说话人TTS和语音转换系统。我们详细讨论...
XTTS:大规模多语言零样本语音合成模型
12 Mar 2025
Contributed by Lukas
本播客讨论了XTTS,一个在16种语言中实现最先进结果的大规模多语言零样本语音合成模型。XTTS是第一个支持低/中资...
AI Radio FM - 探索TorToise语音合成技术
12 Mar 2025
Contributed by Lukas
本期播客深入讨论James Betker的论文《Better speech synthesis through scaling》,重点介绍TorToise,一种富有表现力的多语音文...
AI Radio FM - 解密Spark-TTS:高效LLM语音合成新星
12 Mar 2025
Contributed by Lukas
深入探讨Spark-TTS,一个基于大型语言模型的高效文本转语音系统,具有单流解耦语音令牌。探索BiCodec、VoxBox数据集...
AI Radio FM - 高效Transformer模型深度解析
11 Mar 2025
Contributed by Lukas
本期播客深入探讨2020年及以后的高效Transformer模型,包括其架构、优缺点以及在自然语言处理和计算机视觉领域的...
AI Radio FM - 探索 IndexTTS:工业级可控高效的零样本语音合成系统
11 Mar 2025
Contributed by Lukas
本期播客深入探讨了 bilibili 发布的 IndexTTS 系统,这是一个基于大型语言模型(LLM)的文本转语音(TTS)系统。我们...
AI Radio FM - 动态内存压缩技术
11 Mar 2025
Contributed by Lukas
本期播客深入探讨了动态内存压缩(DMC)技术,这是一种在推理时在线压缩键值(KV)缓存的方法,旨在提高大型语...
AI Radio FM - TorchTitan深度解析
11 Mar 2025
Contributed by Lukas
深入探讨TorchTitan,一个用于生产级LLM预训练的原生PyTorch解决方案。
AI Radio FM - 深度学习技术频道
10 Mar 2025
Contributed by Lukas
本期播客深入探讨了Tree Attention,一种针对GPU集群上长上下文注意力机制的拓扑感知解码方法。通过将自注意力表示...
AI Radio FM - 深入探索 Ring Attention 技术
10 Mar 2025
Contributed by Lukas
本期播客深入探讨了 Ring Attention with Blockwise Transformers (Ring Attention) 技术,这是一种新的内存高效方法,用于解决 T...
DeepSpeed-MoE:推进专家混合推理和训练,助力下一代人工智能规模
09 Mar 2025
Contributed by Lukas
本次播客深入探讨了DeepSpeed-MoE,这是一个端到端的专家混合(MoE)训练和推理解决方案,旨在解决大型MoE模型在实...
MegaBlocks:稀疏混合专家模型的高效训练
09 Mar 2025
Contributed by Lukas
本次播客讨论了MegaBlocks,这是一个在GPU上高效训练混合专家模型(MoE)的系统。MegaBlocks通过将MoE计算重新表述为块...
AI Radio FM - FasterMoE技术解读
09 Mar 2025
Contributed by Lukas
本期播客深入探讨FasterMoE,一个用于高效训练大型动态预训练模型(如MoE模型)的分布式系统。我们将讨论其性能...
FastMoE:稀疏门控混合专家模型训练系统
09 Mar 2025
Contributed by Lukas
本期播客深入探讨FastMoE,一个基于PyTorch的分布式混合专家(MoE)训练系统。FastMoE旨在通过算法和系统协同设计,...
GPipe深度学习模型并行化技术
07 Mar 2025
Contributed by Lukas
本期播客深入探讨GPipe,一种用于训练大型神经网络的可扩展模型并行库。通过案例分析和技术讲解,揭示GPipe如何...
AI Radio FM - 深度学习框架OneFlow
07 Mar 2025
Contributed by Lukas
本期播客深入探讨了新型分布式深度学习框架OneFlow,该框架基于SBP抽象和Actor模型,旨在简化和优化大规模深度神...
AI Radio FM - 深度学习的Pathways
07 Mar 2025
Contributed by Lukas
本期播客深入探讨了Pathways,这是一个为分布式机器学习设计的新系统,旨在支持未来的ML工作负载,同时保持当前...
PaLM:利用 Pathways 进行语言模型规模化
07 Mar 2025
Contributed by Lukas
本次播客深入探讨了谷歌最新的大型语言模型 PaLM,重点介绍了其架构、训练过程、在各种任务上的突破性能力,以...
ZeRO: 内存优化实现万亿参数模型训练
06 Mar 2025
Contributed by Lukas
本次播客深入探讨了微软提出的ZeRO技术,该技术通过消除数据和模型并行训练中的内存冗余,显著提高了训练速度...
AI Radio FM - 深度神经网络的异步流水线并行训练
06 Mar 2025
Contributed by Lukas
本期播客深入探讨了名为PipeMare的新型DNN训练方法,该方法在流水线并行训练中实现了高硬件利用率和低内存占用。...
GShard:使用条件计算和自动分片扩展巨型模型
06 Mar 2025
Contributed by Lukas
本播客讨论了GShard,这是一个由一组轻量级注释API和XLA编译器的扩展组成的模块。它提供了一种优雅的方式来表达...
PyTorch 分布式数据并行训练加速经验
06 Mar 2025
Contributed by Lukas
本播客讨论 PyTorch 分布式数据并行模块的设计、实现和评估。涵盖了梯度分桶、计算与通信重叠以及跳过同步等技...
AI Radio FM - 深度学习模型训练加速
06 Mar 2025
Contributed by Lukas
本期节目探讨如何通过减少激活重计算来加速大型Transformer模型的训练。我们将深入研究序列并行和选择性激活重计...
AI Radio FM - 大规模语言模型训练技术
06 Mar 2025
Contributed by Lukas
本期播客深入探讨了使用 Megatron-LM 在 GPU 集群上进行高效大规模语言模型训练的技术,涵盖了数据并行、流水线并...
AI Radio FM - Technology Channel
05 Mar 2025
Contributed by Lukas
深入探讨Sarathi-Serve:LLM推理中吞吐量与延迟权衡的驯服之道
AI Radio FM - 科技频道
03 Mar 2025
Contributed by Lukas
LLaSA:基于LLaMA的语音合成中训练时和测试时计算的扩展
AI Radio FM - 深入剖析MOONCAKE:为Kimi提供动力的LLM服务平台
03 Mar 2025
Contributed by Lukas
本期播客深入探讨了Moonshot AI开发的LLM聊天机器人服务Kimi背后的服务平台MOONCAKE。MOONCAKE采用以KVCache为中心的解耦架...
AI Radio FM - 揭秘Kimi背后的Mooncake架构
03 Mar 2025
Contributed by Lukas
深入探讨Mooncake,一个以KVCache为中心的LLM服务平台,为Kimi提供支持。了解其独特架构和在处理长上下文及高负载场...
AI Radio FM - FlashInfer深度解析
03 Mar 2025
Contributed by Lukas
本期节目我们深入探讨FlashInfer,一个专为大型语言模型(LLM)推理服务设计的高效且可定制的注意力引擎。
AI Radio FM - Technology Channel
03 Mar 2025
Contributed by Lukas
深入探讨Mooncake:面向大语言模型服务的以KVCache为中心的解耦架构,特别关注其在长上下文和高负载场景下的性能...
AI Radio FM - Technology Channel
03 Mar 2025
Contributed by Lukas
An introduction to BeeGFS and its basic concepts.
AI Radio FM - Technology Channel
03 Mar 2025
Contributed by Lukas
An introduction to BeeGFS® and its basic concepts.
AI Radio FM - 深入剖析WEKA软件架构白皮书
03 Mar 2025
Contributed by Lukas
本期播客将深入探讨WEKA软件架构白皮书,重点关注其分布式并行文件系统。我们将讨论WEKA如何解决常见的云存储挑...
DAOS存储性能扩展性深度解析
03 Mar 2025
Contributed by Lukas
本播客深入探讨了DAOS存储系统在不同工作负载下的性能扩展性,包括IOR和mdtest基准测试,以及网络堆栈和数据保护...
DAOS:面向存储类内存的扩展型高性能存储栈
03 Mar 2025
Contributed by Lukas
本次播客讨论了分布式异步对象存储(DAOS)的架构、数据模型、I/O接口以及IO500基准测试的初步性能结果。DAOS是一...
AI Radio FM - 深度解析DeepSeek-V3/R1推理系统
02 Mar 2025
Contributed by Lukas
深入探讨DeepSeek-V3/R1推理系统的设计原则、大规模跨节点专家并行性(EP)、计算与通信重叠以及负载均衡策略,揭...
AI Radio FM - Technology Channel
02 Mar 2025
Contributed by Lukas
RDMA技术:AWS和Azure云网络基础设施的革新
AI Radio FM - 3FS USRBIO API 深入解析
28 Feb 2025
Contributed by Lukas
本期播客深入探讨了3FS的User Space Ring Based IO (USR বলারBIO) API,这是一个高性能的I/O函数集,允许用户应用程序直...
AI Radio FM - 3FS 文件系统深度解析
28 Feb 2025
Contributed by Lukas
深入探讨 3FS 文件系统的设计、实现和优化,包括其组件、文件系统接口、元数据存储、块存储系统以及故障检测和...
Fire-Flyer AI-HPC:深度学习的软硬件协同设计
27 Feb 2025
Contributed by Lukas
本次播客深入探讨了DeepSeek-AI的Fire-Flyer AI-HPC架构。这是一个专为深度学习设计的,具有成本效益的软硬件协同设计...
AI解读Vision Mamba:视觉表示学习新星
26 Feb 2025
Contributed by Lukas
本期播客深入探讨Vision Mamba (Vim),一种新型通用视觉骨干网络,它采用双向Mamba块进行图像序列标记,并通过双向状...
AI Radio FM - Fire-Flyer AI-HPC:深度学习的软硬件协同设计
25 Feb 2025
Contributed by Lukas
本期播客深入探讨了DeepSeek-AI的Fire-Flyer AI-HPC架构,这是一个专为深度学习设计的、具有成本效益的软硬件协同设计...
AI Radio FM - 高效人工智能实践
24 Feb 2025
Contributed by Lukas
本期播客讨论了在工业应用中训练和部署高效大型语言模型(LLMs)的实用方法。主题包括知识蒸馏、模型压缩技术...
AI Radio FM - Muon优化器深度解析
23 Feb 2025
Contributed by Lukas
本期播客深入探讨了Muon优化器在大规模语言模型训练中的应用。Moonshot AI团队分享了他们如何通过添加权重衰减和...
AI Radio FM - Technology Channel
19 Feb 2025
Contributed by Lukas
深入探讨MoBA(Mixture of Block Attention)技术,这是一种为长上下文LLM设计的新型注意力机制。
AI Radio FM - Technology Channel
19 Feb 2025
Contributed by Lukas
深度解析MinMo:一款为无缝语音交互打造的多模态大型语言模型
AI解读SyncSpeech:低延迟高效双流文本转语音
19 Feb 2025
Contributed by Lukas
本期播客深入探讨SyncSpeech,一种基于时间掩码Transformer的新型双流文本转语音(TTS)模型。SyncSpeech能够同步处理流...
AI Radio FM - 深入探索Nomic Embed v2:首款混合专家文本嵌入模型
19 Feb 2025
Contributed by Lukas
本期节目我们将深入探讨Nomic AI发布的Nomic Embed v2,这是业界首款通用混合专家(MoE)文本嵌入模型。我们将讨论其...
AI Radio FM - 揭秘LUCY:情感、自然、更智能的语音交互
19 Feb 2025
Contributed by Lukas
本期播客深入探讨了腾讯优图实验室的最新研究成果LUCY,一个在情感控制、自然度和信息丰富度方面均有显著提升...
AI Radio FM - Technology Channel
19 Feb 2025
Contributed by Lukas
深入探讨Step-Video-T2V技术报告,涵盖视频基础模型、模型架构、训练策略、系统优化及未来发展方向。
AI Radio FM - 科技频道
18 Feb 2025
Contributed by Lukas
深入探讨原生稀疏注意力机制(NSA)在长上下文建模中的应用和优势。
AI Radio FM - Technology Channel
18 Feb 2025
Contributed by Lukas
深入探讨Step-Audio,首个生产就绪的开源智能语音交互框架。
AudioLM:音频生成的语言模型方法
18 Feb 2025
Contributed by Lukas
我们介绍AudioLM,一个用于高质量音频生成并具有长期一致性的框架。AudioLM将输入音频映射到一系列离散标记,并将...
MuLan:音乐音频与自然语言的联合嵌入
18 Feb 2025
Contributed by Lukas
本次播客深入探讨了MuLan模型,这是一个连接音乐音频和自然语言描述的联合嵌入模型。我们讨论了它的架构、训练...
AI Radio FM - 音乐生成技术
18 Feb 2025
Contributed by Lukas
本次播客深入探讨了MusicLM,一个能根据文本描述生成高保真音乐的模型。我们将讨论MusicLM的技术细节、实验结果、...
Transformer 和 SSM 的结构化状态空间对偶性
16 Feb 2025
Contributed by Lukas
探讨 Transformer 和状态空间模型(SSM)之间联系的播客,重点介绍 SSM 的优势和高效算法,以及新的 Mamba-2 架构。
Mamba: 线性时间序列建模与选择性状态空间
16 Feb 2025
Contributed by Lukas
深入探讨Mamba,一种无需注意力的架构,它通过选择性状态空间实现在语言、音频和基因组等多种模式下的卓越性能...
s1: 简单测试时缩放
12 Feb 2025
Contributed by Lukas
本播客讨论了一种新的语言建模方法,该方法使用额外的测试时计算来提高性能。我们介绍了 s1K,这是一个包含 1...
Sample-Efficient Reasoning with Test-Time Scaling: A Podcast Discussion
12 Feb 2025
Contributed by Lukas
A podcast delving into the innovative s1-32B model, exploring its sample-efficient reasoning capabilities and test-time scaling techniques.
Zonos-v0.1 Beta 发布:新一代文本转语音模型
12 Feb 2025
Contributed by Lukas
深入探讨Zyphra公司发布的Zonos-v0.1 Beta,一款具有高保真语音克隆功能的实时文本转语音模型。我们将分析其特性、...
AI赋能视频创作:Goku模型解析
11 Feb 2025
Contributed by Lukas
深入探讨Goku,一种基于流动模型的视频生成基础模型,及其在图像和视频联合生成方面的突破性进展。
Seed-Music: 统一框架下的高质量可控音乐生成
11 Feb 2025
Contributed by Lukas
探索 Seed-Music,一个旨在生成具有细粒度风格控制的高质量音乐的音乐生成和编辑系统套件。我们的统一框架利用自...
大型语言模型基础
11 Feb 2025
Contributed by Lukas
本播客讨论了大型语言模型(LLM)的基础知识,包括预训练方法、提示工程、对齐技术等。它涵盖了Transformer架构,...
VoxInstruct: 统一多语编解码语言模型实现富有表现力的人工指令语音生成
10 Feb 2025
Contributed by Lukas
探讨VoxInstruct,一种新型框架,它扩展了传统文本到语音的任务,使其能够直接从人类指令生成语音,从而提升语音...
MiniCPM-o 2.6: GPT-4o 级别的多模态大语言模型
10 Feb 2025
Contributed by Lukas
探讨 MiniCPM-o 2.6,一个能在手机上运行,具备 GPT-4o 级别视觉、语音和多模态直播能力的多模态大语言模型。
多模态奖励模型:IXC-2.5-Reward
10 Feb 2025
Contributed by Lukas
探讨 InternLM-XComposer2.5-Reward (IXC-2.5-Reward),一个用于大型视觉语言模型 (LVLM) 的多模态奖励模型,它通过强化学习或...
Mini-InternVL:一款灵活迁移的口袋多模态模型
10 Feb 2025
Contributed by Lukas
本播客讨论了 Mini-InternVL,这是一款参数范围从 1B 到 4B 的多模态大型语言模型(MLLM),它仅用 5% 的参数实现了 90...
增强多模态大型语言模型的推理能力:混合偏好优化
10 Feb 2025
Contributed by Lukas
探讨通过混合偏好优化增强多模态大型语言模型推理能力,结合数据和模型层面的改进,以提升模型在多模态推理...
InternVL 2.5:模型、数据和测试时扩展开放源代码多模态模型的性能边界
10 Feb 2025
Contributed by Lukas
本播客讨论 InternVL 2.5,这是一种先进的多模态大型语言模型(MLLM)系列,它以 InternVL 2.0 为基础,在训练和测试策...
InternVideo2.5:通过长文本和丰富上下文建模增强视频多模态大型语言模型
10 Feb 2025
Contributed by Lukas
讨论 InternVideo2.5 如何通过长文本和丰富上下文建模来提升视频多模态大型语言模型(MLLM)的性能,包括其架构、训...
Reinforcement Learning: A Comprehensive Exploration
09 Feb 2025
Contributed by Lukas
A podcast delving into the core concepts, algorithms, and real-world applications of reinforcement learning, drawing from the renowned book by Sutton ...
Reinforcement Learning: An Engaging Podcast Discussion
09 Feb 2025
Contributed by Lukas
A fast-paced and enthusiastic podcast conversation covering key concepts from the book "Reinforcement Learning: An Introduction," tailored ...
AI的苦涩教训:计算力至上
09 Feb 2025
Contributed by Lukas
探讨AI研究中,通用方法如何凭借计算力超越人类知识,以及研究者们应该如何应对这一转变。
LLaVA-OneVision: 易于实现的视觉任务迁移
09 Feb 2025
Contributed by Lukas
探讨 LLaVA-OneVision,一个开源的大型多模态模型家族,通过整合 LLaVA-NeXT 博客系列中的数据、模型和视觉表示方面的...
VITA-1.5:迈向GPT-4o水平的实时视觉和语音交互
09 Feb 2025
Contributed by Lukas
本期播客深入探讨VITA-1.5,一个旨在实现实时视觉和语音交互的多模态大型语言模型。我们将讨论其架构、训练策略...
Hibiki: 高保真同步语音到语音翻译
08 Feb 2025
Contributed by Lukas
本播客深入探讨了 Hibiki,一种用于同步语音翻译的创新解码器模型。我们将讨论其架构、训练方法以及在法语-英语...
Kimi k1.5: 基于强化学习的大语言模型扩展
08 Feb 2025
Contributed by Lukas
本播客深入探讨了 Kimi 团队如何利用强化学习 (RL) 训练其最新的多模态大语言模型 Kimi k1.5。内容涵盖 RL 训练技术、...
Omni-Emotion:通过详细的面部和音频建模扩展视频 MLLM 以进行多模态情感分析
07 Feb 2025
Contributed by Lukas
本播客讨论了Omni-Emotion模型,该模型通过集成音频和细粒度面部信息来增强视频多模态大型语言模型(MLLM),从而...
HumanOmni:以人为中心的视频理解大型视觉语音语言模型
07 Feb 2025
Contributed by Lukas
深入探讨HumanOmni,一个为理解以人为中心的场景而设计的多模态大型语言模型。我们讨论了其数据集构建、模型架...
Align-Anything: 多模态模型训练与语言反馈
06 Feb 2025
Contributed by Lukas
本播客讨论了一种名为 Align-Anything 的新框架,该框架旨在通过利用人类反馈,尤其是语言反馈,来提升多模态模型...
OmniHuman: 混合条件的人体动画模型
06 Feb 2025
Contributed by Lukas
探讨OmniHuman,一种基于Diffusion Transformer的框架,通过混合运动相关条件来扩展数据,实现高度逼真的人体视频生成...
Scaling LLM Test-Time Compute Optimally
01 Feb 2025
Contributed by Lukas
A podcast discussing how to optimize the use of test-time computation for large language models (LLMs), focusing on strategies like searching against ...
LLM Test-Time Compute Scaling: An In-Depth Analysis
01 Feb 2025
Contributed by Lukas
A podcast discussing how to optimally scale test-time compute for Large Language Models (LLMs), focusing on improving both verifiers and the model...
AI Radio FM - Technology Channel, Your Personal Generative AI Podcast
28 Jan 2025
Contributed by Lukas
Discussing the Janus-Pro multimodal model.
JanusFlow: 统一多模态理解与生成框架
28 Jan 2025
Contributed by Lukas
这是一个关于JanusFlow的播客,JanusFlow是一种强大的框架,它将图像理解和生成统一到一个模型中,通过整合自回归...
AI科技前沿:Janus多模态统一框架解析
28 Jan 2025
Contributed by Lukas
欢迎来到AI Radio FM - 科技频道,您的专属生成式AI播客!今天,我们将深入探讨一项名为Janus的创新多模态框架。Jan...
Hunyuan3D 2.0: 高分辨率纹理3D资产生成的扩散模型
24 Jan 2025
Contributed by Lukas
本播客讨论Hunyuan3D 2.0,这是一个用于生成高分辨率纹理3D资产的先进大规模3D合成系统。该系统包括两个基础组件:...