HuggingFace 每日AI论文速递

2025.07.16 | VLV自编码器降低训练成本；EXAONE 4.0增强推理能力。

17 Jul 2025

Contributed by Lukas

本期的 8 篇论文如下：[00:28] 💡 Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models（视觉-语言-...

2025.07.15 | 数据集支持虚拟人生成；强化学习需防数据污染。

16 Jul 2025

Contributed by Lukas

本期的 12 篇论文如下：[00:24] 🗣 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation（S...

2025.07.14 | 高效推理路径选择；压缩光场令牌渲染

14 Jul 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:22] 🧠 Test-Time Scaling with Reflective Generative Model（基于反射生成模型的测试时缩放）[00:59] ...

【周末特辑】7月第2周最火AI论文 | 长视频推理框架创新；内存操作系统提升AI性能

13 Jul 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:42] TOP1(🔥109) | 🎬 Scaling RL to Long Videos（强化学习驱动视觉语言模型扩展至长视频）[02:54...

2025.07.11 | 长视频推理效率提升；单图像定制模型防过拟合。

11 Jul 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:25] 🎬 Scaling RL to Long Videos（强化学习驱动视觉语言模型扩展至长视频）[01:10] 🖼 T-LoRA: ...

2025.07.10 | 零样本运动生成突破；4K图像超分辨率提升。

10 Jul 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:22] 🤸 Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data（趋向于零：基于百万级数...

2025.07.09 | 潜在推理提升LLM表达能力；SingLoRA优化低秩适应性能。

09 Jul 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:25] 🤔 A Survey on Latent Reasoning（潜在推理研究综述）[00:59] 💡 SingLoRA: Low Rank Adaptation Using...

2025.07.08 | MemOS提升内存管理效率；MLM与CLM结合优化编码器训练。

08 Jul 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:21] 🧠 MemOS: A Memory OS for AI System（MemOS：面向人工智能系统的内存操作系统）[01:07] 🤔 Sh...

2025.07.07 | GPT-4o在语义任务中表现良好；潜在空间模拟精度高。

07 Jul 2025

Contributed by Lukas

本期的 4 篇论文如下：[00:27] 🖼 How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision...

【周末特辑】7月第1周最火AI论文 | 多模态推理模型提升；短视频理解领先。

06 Jul 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:35] TOP1(🔥165) | 🧠 GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learn...

【月末特辑】6月最火AI论文 | LLM通过自我反思提升性能；MiniMax-M1高效扩展测试计算。

05 Jul 2025

Contributed by Lukas

本期的 10 篇论文如下：[00:37] TOP1(🔥258) | 💡 Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning（反思、重试、...

2025.07.04 | WebSailor提升LLM推理能力；LangScene-X优化3D场景重建。

04 Jul 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🧭 WebSailor: Navigating Super-human Reasoning for Web Agent（WebSailor：为Web Agent导航超人推理）[...

2025.07.03 | 多模态模型提升短视频理解；动画生成保持颜色一致。

04 Jul 2025

Contributed by Lukas

本期的 9 篇论文如下：[00:21] 🎬 Kwai Keye-VL Technical Report（Kwai Keye-VL 技术报告）[01:02] 🎨 LongAnimation: Long Animation Gene...

2025.07.02 | 多模态推理提升；双向嵌入优化

02 Jul 2025

Contributed by Lukas

本期的 12 篇论文如下：[00:23] 💡 GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning（GLM-4.1V-...

2025.07.01 | 多模态生成领先；视频扩散效率提升

01 Jul 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:21] 🖼 Ovis-U1 Technical Report（Ovis-U1 技术报告）[00:58] 🎬 VMoBA: Mixture-of-Block Attention for Video...

2025.06.30 | 3D视觉编辑；视频令牌压缩

01 Jul 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:26] 🎨 BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing（BlenderFusion：基于3D的视觉编...

【周末特辑】6月第5周最火AI论文 | 拖拽式大模型提升效率；法线光照恢复高精度。

28 Jun 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:42] TOP1(🔥107) | 🧲 Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights（拖拽式大语言模型：零样本提示...

2025.06.27 | 强化学习提升搜索效率；记忆增强生成逼真驾驶场景。

28 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:25] 🔍 MMSearch-R1: Incentivizing LMMs to Search（MMSearch-R1：激励大型多模态模型进行搜索）[00:59...

2025.06.26 | 高质量多模态模型；4比特量化提升性能

26 Jun 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:23] 🖼 ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation（ShareGPT-4o-Image：通...

2025.06.25 | AnimaX提升3D非生物体动画效果；Matrix-Game优化游戏世界模型。

26 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:25] 🤖 AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models（AnimaX：利用联合视频...

2025.06.24 | 法线光照新方法提升细节；多模态生成模型表现优异。

25 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:24] 💡 Light of Normals: Unified Feature Representation for Universal Photometric Stereo（法线光照：用于通...

2025.06.23 | DnD降低计算开销；视觉引导提升RAG性能。

23 Jun 2025

Contributed by Lukas

本期的 12 篇论文如下：[00:23] 🧲 Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights（拖拽式大语言模型：零样本提示到权重）[0...

【周末特辑】6月第4周最火AI论文 | 高效扩展推理能力；多模态金融评估基准。

21 Jun 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:36] TOP1(🔥216) | 💡 MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention（MiniMax-M1：利...

2025.06.20 | 强化学习提升跨领域推理；语音情感检测基准精细化。

20 Jun 2025

Contributed by Lukas

本期的 4 篇论文如下：[00:24] 🧠 Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective（跨领域视角下重...

2025.06.19 | SEKAI数据集提升视频生成；原型推理增强LLM泛化能力。

19 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🌍 Sekai: A Video Dataset towards World Exploration（Sekai：一个面向世界探索的视频数据集）[0...

2025.06.18 | MultiFinBen揭示金融模型局限；测试时计算提升LLM Agent性能。

18 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 📊 MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation（Mul...

2025.06.17 | MiniMax-M1提升推理性能；多模态模型认知测试创新。

17 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 💡 MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention（MiniMax-M1：利用闪电注意...

2025.06.16 | 跨模态合成新视角图像；策略依从型智能体抗攻击

17 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 🖼 Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation（基于跨模态注...

【周末特辑】6月第3周最火AI论文 | 强化预训练提升语言模型推理能力；多语种分类器改善问答系统可信度。

15 Jun 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:43] TOP1(🔥199) | 🤖 Reinforcement Pre-Training（强化预训练）[03:06] TOP2(🔥124) | 🕰 Will It Still B...

2025.06.13 | 医学推理模型新范式；自动化构建软件工程数据集

14 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🩺 ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning（ReasonMed：一个用于...

2025.06.12 | 自信微调提升模型表现；视频生成模型高效优化。

12 Jun 2025

Contributed by Lukas

本期的 13 篇论文如下：[00:23] 🧠 Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models（自信即全部：基于语言模...

2025.06.11 | LLM存在地缘政治偏见；RuleReasoner提升推理效率。

11 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🌍 Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary languag...

2025.06.10 | 强化学习改进语言模型；医学多模态模型提升推理能力。

10 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:21] 🤖 Reinforcement Pre-Training（强化预训练）[01:01] 🩺 Lingshu: A Generalist Foundation Model for Uni...

2025.06.09 | 常青问题分类提升问答系统；多模态融合优化音频描述。

10 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:24] 🕰 Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA（...

【周末特辑】6月第2周最火AI论文 | LLM自我反思提升性能；高熵Token优化推理。

08 Jun 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:47] TOP1(🔥169) | 💡 Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning（反思、重试、...

2025.06.06 | 智能助手加速ComfyUI开发；单步视频修复提升效率。

07 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:24] 🤖 ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development（ComfyUI-Copilot：用于自...

2025.06.05 | 紧凑强大视觉模型；多阶段训练提升推理能力

06 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:21] 🤖 MiMo-VL Technical Report（MiMo-VL 技术报告）[01:14] 💡 Advancing Multimodal Reasoning: From Optimi...

2025.06.04 | 强化学习提升LLM性能；UniWorld统一视觉理解与生成。

05 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 💡 Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning（反思、重试、奖励：通过...

2025.06.03 | 高熵Token提升LLM推理；推理健身房优化强化学习环境。

03 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🧠 Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoni...

【月末特辑】5月最火AI论文 | 小型语言模型在翻译中表现优异；多模态推理模型发展历程综述。

03 Jun 2025

Contributed by Lukas

本期的 10 篇论文如下：[00:40] TOP1(🔥209) | 🌐 Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model（...

2025.06.02 | 延长RL提升推理；快慢思考优化推理。

02 Jun 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 🧠 ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models（ProRL：延...

【周末特辑】6月第1周最火AI论文 | 小型模型在翻译中表现优异；数据中心压缩提升AI效率。

01 Jun 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:43] TOP1(🔥205) | 🌐 Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model（...

2025.05.30 | 推理扩展提升表格推理；多模态模型视频反馈有待优化。

30 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 📊 Table-R1: Inference-Time Scaling for Table Reasoning（Table-R1：表格推理的推理时扩展）[01:02]...

2025.05.29 | 熵机制提升模型性能；令牌路由优化推理效率。

29 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🤖 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models（用于推理语言模型的...

2025.05.28 | 多模态Agent科研任务成功率低；逻辑推理模型存在显著局限。

28 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 🧪 ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows（ScienceBoard：评...

2025.05.27 | AI效率提升需数据压缩；小型模型翻译更高效。

27 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:24] 🗜 Shifting AI Efficiency From Model-Centric to Data-Centric Compression（AI效率转移：从以模型为中...

2025.05.26 | TabSTAR提升表格数据分类性能；QwenLong-L1优化长文本推理

26 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 📊 TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations（TabSTAR：具有语义...

【周末特辑】5月第4周最火AI论文 | Qwen3提升LLMs性能；BAGEL增强多模态推理。

24 May 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:42] TOP1(🔥146) | 🤖 Qwen3 Technical Report（Qwen3技术报告）[03:08] TOP2(🔥114) | 💡 Emerging Properti...

2025.05.23 | 智能体加速科研；推理模型指令遵循不佳。

23 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🧪 NovelSeek: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification...

2025.05.22 | Web导航效率提升；量化误差优化。

22 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:25] 🤖 Web-Shepherd: Advancing PRMs for Reinforcing Web Agents（Web-Shepherd：用于增强Web代理的PRM的进...

2025.05.21 | 多模态预训练提升复杂任务能力；注意力机制优化推理与训练效率。

21 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 💡 Emerging Properties in Unified Multimodal Pretraining（统一多模态预训练中的涌现属性）[01:0...

2025.05.20 | 模型链学习提升效率；AdaptThink优化推理速度。

20 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 🔗 Chain-of-Model Learning for Language Model（模型链学习：一种用于语言模型的新型学习范式...

2025.05.19 | Qwen3提升LLMs性能；GuardReasoner-VL强化VLM安全。

19 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:24] 🤖 Qwen3 Technical Report（Qwen3技术报告）[01:14] 🛡 GuardReasoner-VL: Safeguarding VLMs via Reinforc...

【周末特辑】5月第3周最火AI论文 | Seed1.5-VL多模态推理领先；MiniMax-Speech零样本语音克隆

17 May 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:38] TOP1(🔥126) | 💡 Seed1.5-VL Technical Report（Seed1.5-VL 技术报告）[03:11] TOP2(🔥109) | 🗣 MiniMa...

2025.05.16 | 推理模型元能力提升；系统提示优化与鲁棒性增强

16 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:24] 💡 Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models（超越“Aha!”时刻...

2025.05.15 | 解耦学习提升感知性能；多模态模型优化图像生成。

15 May 2025

Contributed by Lukas

本期的 11 篇论文如下：[00:23] 🖼 DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception（DeCLIP：用于开放词汇密集感知的...

2025.05.14 | 零样本语音合成新模型；多维度评估LLM指令能力

14 May 2025

Contributed by Lukas

本期的 8 篇论文如下：[00:25] 🗣 MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder（MiniMax-Speech：具有...

2025.05.13 | 视觉-语言模型提升多模态能力；优化训练策略增强推理潜力。

13 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:24] 💡 Seed1.5-VL Technical Report（Seed1.5-VL 技术报告）[01:04] 🧠 MiMo: Unlocking the Reasoning Potenti...

2025.05.12 | 波兰语模型优化；高效参数利用

12 May 2025

Contributed by Lukas

本期的 7 篇论文如下：[00:23] 🇵 Bielik v3 Small: Technical Report（Bielik v3 Small：技术报告）[01:07] 🇵 Bielik 11B v2 Technical R...

【周末特辑】5月第2周最火AI论文 | 零数据自博弈推理；多模态长推理模型综述

10 May 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:42] TOP1(🔥93) | 🚀 Absolute Zero: Reinforced Self-play Reasoning with Zero Data（绝对零度：基于零数据...

2025.05.09 | 多模态推理模型发展综述；通用智能评估框架提出

09 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🧠 Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models（感知、推理、思...

2025.05.08 | 多模态模型整合潜力大；零搜索提升LLMs效率。

08 May 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:21] 💡 Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities（统一多...

2025.05.07 | 多模态思维链提升模型性能；零数据自博弈强化推理能力。

07 May 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:24] 🧠 Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning（基于强化微调的...

2025.05.06 | Voila实现低延迟全双工对话；RM-R1提升大模型推理奖励。

06 May 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🤖 Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play（Voila：...

2025.05.05 | PixelHacker提升图像修复质量；分层记忆增强图像编辑可控性。

05 May 2025

Contributed by Lukas

本期的 8 篇论文如下：[00:21] 🖼 PixelHacker: Image Inpainting with Structural and Semantic Consistency（PixelHacker：基于结构和语义...

【周末特辑】5月第1周最火AI论文 | 相机运动理解显著提升；单样本强化学习提升推理能力。

03 May 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:43] TOP1(🔥149) | 🎥 Towards Understanding Camera Motions in Any Video（迈向理解任意视频中的相机运...

2025.05.02 | 交互式视频生成技术探讨；DeepCritic提升大模型评判能力。

02 May 2025

Contributed by Lukas

本期的 8 篇论文如下：[00:28] 🎮 A Survey of Interactive Generative Video（交互式生成视频综述）[01:05] 🧐 DeepCritic: Deliberat...

2025.05.01 | 阿拉伯语变音难题新解；深度推理模型能力增强

01 May 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:21] 🗣 Sadeed: Advancing Arabic Diacritization Through Small Language Model（Sadeed：通过小型语言模型推...

2025.04.30 | 多模态检索增强生成；单样本强化学习提升推理。

30 Apr 2025

Contributed by Lukas

本期的 12 篇论文如下：[00:24] 🔍 UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granulariti...

2025.04.29 | RepText提升多语言文本渲染；LLM改进手机GUI自动化。

29 Apr 2025

Contributed by Lukas

本期的 11 篇论文如下：[00:23] ✍ RepText: Rendering Visual Text via Replicating（RepText：通过复制渲染视觉文本）[01:02] 📱 LL...

2025.04.28 | 视频相机运动理解提升；多模态推理模型优化

28 Apr 2025

Contributed by Lukas

本期的 11 篇论文如下：[00:22] 🎥 Towards Understanding Camera Motions in Any Video（迈向理解任意视频中的相机运动）[01:04] 🧠...

【周末特辑】4月第4周最火AI论文 | 阿拉伯语模型扩展成功；强化学习提升有限。

26 Apr 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:33] TOP1(🔥108) | 💡 Kuwain 1.5B: An Arabic SLM via Language Injection（Kuwain 1.5B：一种基于语言注入的...

2025.04.25 | 开源模型超越闭源；新型评估指标提升生成质量。

25 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:24] 🖼 Step1X-Edit: A Practical Framework for General Image Editing（Step1X-Edit：一个通用的图像编辑实...

2025.04.24 | 视觉推理评估新基准；高保真人脸替换技术

24 Apr 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:23] 👁 VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models（VisuLogic：...

2025.04.23 | 阿拉伯语性能提升；推理任务性能显著提高。

23 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 💡 Kuwain 1.5B: An Arabic SLM via Language Injection（Kuwain 1.5B：一种基于语言注入的阿拉伯语S...

2025.04.22 | LUFFY提升推理性能；FlowReasoner增强系统适应性。

22 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:25] 🧠 Learning to Reason under Off-Policy Guidance（离线策略指导下的推理学习）[01:00] 🤖 FlowRea...

2025.04.21 | 强化学习未提升新推理能力；MIG优化指令微调数据选择。

21 Apr 2025

Contributed by Lukas

本期的 9 篇论文如下：[00:22] 🤔 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?（强化学...

【周末特辑】4月第3周最火AI论文 | 多模态模型InternVL3创新预训练；Seaweed-7B高效视频生成。

19 Apr 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:52] TOP1(🔥223) | 🖼 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Mod...

2025.04.18 | CLIMB提升领域模型表现；反蒸馏采样防止模型被盗用。

18 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 🗂 CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training（CLIMB：基...

2025.04.17 | ColorBench测试VLM颜色理解；BitNet提升计算效率。

17 Apr 2025

Contributed by Lukas

本期的 11 篇论文如下：[00:27] 🎨 ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception...

2025.04.16 | Genius提升LLM推理能力；xVerify高效验证推理模型。

16 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🧠 Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning（Genius：...

2025.04.15 | 多模态模型性能提升；低资源推理加速优化

15 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 🖼 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models（InternVL3...

2025.04.14 | 经济高效视频生成；自回归图像生成扩展。

14 Apr 2025

Contributed by Lukas

本期的 13 篇论文如下：[00:24] 🎬 Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model（Seaweed-7B：一种经济高效...

【周末特辑】4月第2周最火AI论文 | SmolVLM优化多模态模型性能；OmniSVG提升SVG生成质量。

12 Apr 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:44] TOP1(🔥149) | 💡 SmolVLM: Redefining small and efficient multimodal models（SmolVLM：重新定义小型高...

2025.04.11 | Kimi-VL模型表现优异；VCR-Bench评估推理瓶颈。

11 Apr 2025

Contributed by Lukas

本期的 14 篇论文如下：[00:22] 🧠 Kimi-VL Technical Report（Kimi-VL技术报告）[01:05] 🎬 VCR-Bench: A Comprehensive Evaluation Framew...

2025.04.10 | DDT提升图像生成质量；GenDoP优化相机轨迹生成。

10 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:25] 🎨 DDT: Decoupled Diffusion Transformer（解耦扩散Transformer）[01:05] 🎬 GenDoP: Auto-regressive Came...

2025.04.09 | OmniSVG生成高质量SVG图形；Skywork R1V多模态推理出色。

09 Apr 2025

Contributed by Lukas

本期的 13 篇论文如下：[00:22] 🎨 OmniSVG: A Unified Scalable Vector Graphics Generation Model（OmniSVG：一个统一的可扩展矢量图...

2025.04.08 | 分钟级AI视频生成；小型模型超越大型模型

08 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:21] 🎬 One-Minute Video Generation with Test-Time Training（基于测试时训练的分钟级视频生成）[01:...

2025.04.07 | 多语言基准测试揭示LLMs跨语言泛化局限，具身智能新方法提升规划效率与适应性。

07 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 🛠 Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving（Multi-SWE-bench：一个用于问题解决...

【月末特辑】3月最火AI论文 | 稀疏自编码器提升文本检测，动态Tanh优化Transformer

06 Apr 2025

Contributed by Lukas

本期的 10 篇论文如下：[00:42] TOP1(🔥226) | 🤖 Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders（基于稀...

【周末特辑】4月第1周最火AI论文 | 智能体设计挑战，视觉文本生成创新。

05 Apr 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:40] TOP1(🔥101) | 🧠 Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolution...

2025.04.04 | 智能体自主提升，视觉编辑推理重要。

04 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:19] 🧠 Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborat...

2025.04.03 | MergeVQ高效生成高质量图像，类R1-Zero提升视觉空间推理。

03 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:23] 🎨 MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and ...

2025.04.02 | 视频生成精度提升，强化学习增强视频理解。

02 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:21] 🎬 Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation（Any2Caption：将任...

2025.04.01 | 多文本渲染新方法，电影级对话角色合成

01 Apr 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🖼 TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes（TextCrafter：复杂视觉场景...

2025.03.31 | 减少token使用，提升领域效率。

31 Mar 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 💡 AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation（Adapt...

【周末特辑】3月第4周最火AI论文 | 稀疏自编码器解读LLM推理特征，多模态模型创新。

29 Mar 2025

Contributed by Lukas

本期的 5 篇论文如下：[00:37] TOP1(🔥109) | 🧠 I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models...

2025.03.28 | 视频推理提升，GUI动作预测优化

28 Mar 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🧠 Video-R1: Reinforcing Video Reasoning in MLLMs（Video-R1：增强多模态大语言模型中的视频推理...

2025.03.27 | Dita跨模态策略优异，Qwen2.5-Omni多模态实时响应。

27 Mar 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:26] 🤖 Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy（Dita：扩展扩散Tran...

2025.03.26 | 视频预测性能提升，多模态预训练效果显著。

26 Mar 2025

Contributed by Lukas

本期的 15 篇论文如下：[00:22] 🎬 Long-Context Autoregressive Video Modeling with Next-Frame Prediction（基于下一帧预测的长程上下...

Activity Overview

Episodes

2025.07.16 | VLV自编码器降低训练成本；EXAONE 4.0增强推理能力。

2025.07.15 | 数据集支持虚拟人生成；强化学习需防数据污染。

2025.07.14 | 高效推理路径选择；压缩光场令牌渲染

【周末特辑】7月第2周最火AI论文 | 长视频推理框架创新；内存操作系统提升AI性能

2025.07.11 | 长视频推理效率提升；单图像定制模型防过拟合。

2025.07.10 | 零样本运动生成突破；4K图像超分辨率提升。

2025.07.09 | 潜在推理提升LLM表达能力；SingLoRA优化低秩适应性能。

2025.07.08 | MemOS提升内存管理效率；MLM与CLM结合优化编码器训练。

2025.07.07 | GPT-4o在语义任务中表现良好；潜在空间模拟精度高。

【周末特辑】7月第1周最火AI论文 | 多模态推理模型提升；短视频理解领先。

【月末特辑】6月最火AI论文 | LLM通过自我反思提升性能；MiniMax-M1高效扩展测试计算。

2025.07.04 | WebSailor提升LLM推理能力；LangScene-X优化3D场景重建。

2025.07.03 | 多模态模型提升短视频理解；动画生成保持颜色一致。

2025.07.02 | 多模态推理提升；双向嵌入优化

2025.07.01 | 多模态生成领先；视频扩散效率提升

2025.06.30 | 3D视觉编辑；视频令牌压缩

【周末特辑】6月第5周最火AI论文 | 拖拽式大模型提升效率；法线光照恢复高精度。

2025.06.27 | 强化学习提升搜索效率；记忆增强生成逼真驾驶场景。

2025.06.26 | 高质量多模态模型；4比特量化提升性能

2025.06.25 | AnimaX提升3D非生物体动画效果；Matrix-Game优化游戏世界模型。

2025.06.24 | 法线光照新方法提升细节；多模态生成模型表现优异。

2025.06.23 | DnD降低计算开销；视觉引导提升RAG性能。

【周末特辑】6月第4周最火AI论文 | 高效扩展推理能力；多模态金融评估基准。

2025.06.20 | 强化学习提升跨领域推理；语音情感检测基准精细化。

2025.06.19 | SEKAI数据集提升视频生成；原型推理增强LLM泛化能力。

2025.06.18 | MultiFinBen揭示金融模型局限；测试时计算提升LLM Agent性能。

2025.06.17 | MiniMax-M1提升推理性能；多模态模型认知测试创新。

2025.06.16 | 跨模态合成新视角图像；策略依从型智能体抗攻击

【周末特辑】6月第3周最火AI论文 | 强化预训练提升语言模型推理能力；多语种分类器改善问答系统可信度。

2025.06.13 | 医学推理模型新范式；自动化构建软件工程数据集

2025.06.12 | 自信微调提升模型表现；视频生成模型高效优化。

2025.06.11 | LLM存在地缘政治偏见；RuleReasoner提升推理效率。

2025.06.10 | 强化学习改进语言模型；医学多模态模型提升推理能力。

2025.06.09 | 常青问题分类提升问答系统；多模态融合优化音频描述。

【周末特辑】6月第2周最火AI论文 | LLM自我反思提升性能；高熵Token优化推理。

2025.06.06 | 智能助手加速ComfyUI开发；单步视频修复提升效率。

2025.06.05 | 紧凑强大视觉模型；多阶段训练提升推理能力

2025.06.04 | 强化学习提升LLM性能；UniWorld统一视觉理解与生成。

2025.06.03 | 高熵Token提升LLM推理；推理健身房优化强化学习环境。

【月末特辑】5月最火AI论文 | 小型语言模型在翻译中表现优异；多模态推理模型发展历程综述。

2025.06.02 | 延长RL提升推理；快慢思考优化推理。

【周末特辑】6月第1周最火AI论文 | 小型模型在翻译中表现优异；数据中心压缩提升AI效率。

2025.05.30 | 推理扩展提升表格推理；多模态模型视频反馈有待优化。

2025.05.29 | 熵机制提升模型性能；令牌路由优化推理效率。

2025.05.28 | 多模态Agent科研任务成功率低；逻辑推理模型存在显著局限。

2025.05.27 | AI效率提升需数据压缩；小型模型翻译更高效。

2025.05.26 | TabSTAR提升表格数据分类性能；QwenLong-L1优化长文本推理

【周末特辑】5月第4周最火AI论文 | Qwen3提升LLMs性能；BAGEL增强多模态推理。

2025.05.23 | 智能体加速科研；推理模型指令遵循不佳。

2025.05.22 | Web导航效率提升；量化误差优化。

2025.05.21 | 多模态预训练提升复杂任务能力；注意力机制优化推理与训练效率。

2025.05.20 | 模型链学习提升效率；AdaptThink优化推理速度。

2025.05.19 | Qwen3提升LLMs性能；GuardReasoner-VL强化VLM安全。

【周末特辑】5月第3周最火AI论文 | Seed1.5-VL多模态推理领先；MiniMax-Speech零样本语音克隆

2025.05.16 | 推理模型元能力提升；系统提示优化与鲁棒性增强

2025.05.15 | 解耦学习提升感知性能；多模态模型优化图像生成。

2025.05.14 | 零样本语音合成新模型；多维度评估LLM指令能力

2025.05.13 | 视觉-语言模型提升多模态能力；优化训练策略增强推理潜力。

2025.05.12 | 波兰语模型优化；高效参数利用

【周末特辑】5月第2周最火AI论文 | 零数据自博弈推理；多模态长推理模型综述

2025.05.09 | 多模态推理模型发展综述；通用智能评估框架提出

2025.05.08 | 多模态模型整合潜力大；零搜索提升LLMs效率。

2025.05.07 | 多模态思维链提升模型性能；零数据自博弈强化推理能力。

2025.05.06 | Voila实现低延迟全双工对话；RM-R1提升大模型推理奖励。

2025.05.05 | PixelHacker提升图像修复质量；分层记忆增强图像编辑可控性。

【周末特辑】5月第1周最火AI论文 | 相机运动理解显著提升；单样本强化学习提升推理能力。

2025.05.02 | 交互式视频生成技术探讨；DeepCritic提升大模型评判能力。

2025.05.01 | 阿拉伯语变音难题新解；深度推理模型能力增强

2025.04.30 | 多模态检索增强生成；单样本强化学习提升推理。

2025.04.29 | RepText提升多语言文本渲染；LLM改进手机GUI自动化。

2025.04.28 | 视频相机运动理解提升；多模态推理模型优化

【周末特辑】4月第4周最火AI论文 | 阿拉伯语模型扩展成功；强化学习提升有限。

2025.04.25 | 开源模型超越闭源；新型评估指标提升生成质量。

2025.04.24 | 视觉推理评估新基准；高保真人脸替换技术

2025.04.23 | 阿拉伯语性能提升；推理任务性能显著提高。

2025.04.22 | LUFFY提升推理性能；FlowReasoner增强系统适应性。

2025.04.21 | 强化学习未提升新推理能力；MIG优化指令微调数据选择。