HuggingFace 每日AI论文速递
Episodes
2025.07.16 | VLV自编码器降低训练成本;EXAONE 4.0增强推理能力。
17 Jul 2025
Contributed by Lukas
本期的 8 篇论文如下:[00:28] 💡 Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models(视觉-语言-...
2025.07.15 | 数据集支持虚拟人生成;强化学习需防数据污染。
16 Jul 2025
Contributed by Lukas
本期的 12 篇论文如下:[00:24] 🗣 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation(S...
2025.07.14 | 高效推理路径选择;压缩光场令牌渲染
14 Jul 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:22] 🧠 Test-Time Scaling with Reflective Generative Model(基于反射生成模型的测试时缩放)[00:59] ...
【周末特辑】7月第2周最火AI论文 | 长视频推理框架创新;内存操作系统提升AI性能
13 Jul 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:42] TOP1(🔥109) | 🎬 Scaling RL to Long Videos(强化学习驱动视觉语言模型扩展至长视频)[02:54...
2025.07.11 | 长视频推理效率提升;单图像定制模型防过拟合。
11 Jul 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:25] 🎬 Scaling RL to Long Videos(强化学习驱动视觉语言模型扩展至长视频)[01:10] 🖼 T-LoRA: ...
2025.07.10 | 零样本运动生成突破;4K图像超分辨率提升。
10 Jul 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:22] 🤸 Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data(趋向于零:基于百万级数...
2025.07.09 | 潜在推理提升LLM表达能力;SingLoRA优化低秩适应性能。
09 Jul 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:25] 🤔 A Survey on Latent Reasoning(潜在推理研究综述)[00:59] 💡 SingLoRA: Low Rank Adaptation Using...
2025.07.08 | MemOS提升内存管理效率;MLM与CLM结合优化编码器训练。
08 Jul 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:21] 🧠 MemOS: A Memory OS for AI System(MemOS:面向人工智能系统的内存操作系统)[01:07] 🤔 Sh...
2025.07.07 | GPT-4o在语义任务中表现良好;潜在空间模拟精度高。
07 Jul 2025
Contributed by Lukas
本期的 4 篇论文如下:[00:27] 🖼 How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision...
【周末特辑】7月第1周最火AI论文 | 多模态推理模型提升;短视频理解领先。
06 Jul 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:35] TOP1(🔥165) | 🧠 GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learn...
【月末特辑】6月最火AI论文 | LLM通过自我反思提升性能;MiniMax-M1高效扩展测试计算。
05 Jul 2025
Contributed by Lukas
本期的 10 篇论文如下:[00:37] TOP1(🔥258) | 💡 Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning(反思、重试、...
2025.07.04 | WebSailor提升LLM推理能力;LangScene-X优化3D场景重建。
04 Jul 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🧭 WebSailor: Navigating Super-human Reasoning for Web Agent(WebSailor:为Web Agent导航超人推理)[...
2025.07.03 | 多模态模型提升短视频理解;动画生成保持颜色一致。
04 Jul 2025
Contributed by Lukas
本期的 9 篇论文如下:[00:21] 🎬 Kwai Keye-VL Technical Report(Kwai Keye-VL 技术报告)[01:02] 🎨 LongAnimation: Long Animation Gene...
2025.07.02 | 多模态推理提升;双向嵌入优化
02 Jul 2025
Contributed by Lukas
本期的 12 篇论文如下:[00:23] 💡 GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning(GLM-4.1V-...
2025.07.01 | 多模态生成领先;视频扩散效率提升
01 Jul 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:21] 🖼 Ovis-U1 Technical Report(Ovis-U1 技术报告)[00:58] 🎬 VMoBA: Mixture-of-Block Attention for Video...
2025.06.30 | 3D视觉编辑;视频令牌压缩
01 Jul 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:26] 🎨 BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing(BlenderFusion:基于3D的视觉编...
【周末特辑】6月第5周最火AI论文 | 拖拽式大模型提升效率;法线光照恢复高精度。
28 Jun 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:42] TOP1(🔥107) | 🧲 Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights(拖拽式大语言模型:零样本提示...
2025.06.27 | 强化学习提升搜索效率;记忆增强生成逼真驾驶场景。
28 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:25] 🔍 MMSearch-R1: Incentivizing LMMs to Search(MMSearch-R1:激励大型多模态模型进行搜索)[00:59...
2025.06.26 | 高质量多模态模型;4比特量化提升性能
26 Jun 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:23] 🖼 ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation(ShareGPT-4o-Image:通...
2025.06.25 | AnimaX提升3D非生物体动画效果;Matrix-Game优化游戏世界模型。
26 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:25] 🤖 AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models(AnimaX:利用联合视频...
2025.06.24 | 法线光照新方法提升细节;多模态生成模型表现优异。
25 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:24] 💡 Light of Normals: Unified Feature Representation for Universal Photometric Stereo(法线光照:用于通...
2025.06.23 | DnD降低计算开销;视觉引导提升RAG性能。
23 Jun 2025
Contributed by Lukas
本期的 12 篇论文如下:[00:23] 🧲 Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights(拖拽式大语言模型:零样本提示到权重)[0...
【周末特辑】6月第4周最火AI论文 | 高效扩展推理能力;多模态金融评估基准。
21 Jun 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:36] TOP1(🔥216) | 💡 MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention(MiniMax-M1:利...
2025.06.20 | 强化学习提升跨领域推理;语音情感检测基准精细化。
20 Jun 2025
Contributed by Lukas
本期的 4 篇论文如下:[00:24] 🧠 Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective(跨领域视角下重...
2025.06.19 | SEKAI数据集提升视频生成;原型推理增强LLM泛化能力。
19 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🌍 Sekai: A Video Dataset towards World Exploration(Sekai:一个面向世界探索的视频数据集)[0...
2025.06.18 | MultiFinBen揭示金融模型局限;测试时计算提升LLM Agent性能。
18 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 📊 MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation(Mul...
2025.06.17 | MiniMax-M1提升推理性能;多模态模型认知测试创新。
17 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 💡 MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention(MiniMax-M1:利用闪电注意...
2025.06.16 | 跨模态合成新视角图像;策略依从型智能体抗攻击
17 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 🖼 Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation(基于跨模态注...
【周末特辑】6月第3周最火AI论文 | 强化预训练提升语言模型推理能力;多语种分类器改善问答系统可信度。
15 Jun 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:43] TOP1(🔥199) | 🤖 Reinforcement Pre-Training(强化预训练)[03:06] TOP2(🔥124) | 🕰 Will It Still B...
2025.06.13 | 医学推理模型新范式;自动化构建软件工程数据集
14 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🩺 ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning(ReasonMed:一个用于...
2025.06.12 | 自信微调提升模型表现;视频生成模型高效优化。
12 Jun 2025
Contributed by Lukas
本期的 13 篇论文如下:[00:23] 🧠 Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models(自信即全部:基于语言模...
2025.06.11 | LLM存在地缘政治偏见;RuleReasoner提升推理效率。
11 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🌍 Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary languag...
2025.06.10 | 强化学习改进语言模型;医学多模态模型提升推理能力。
10 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:21] 🤖 Reinforcement Pre-Training(强化预训练)[01:01] 🩺 Lingshu: A Generalist Foundation Model for Uni...
2025.06.09 | 常青问题分类提升问答系统;多模态融合优化音频描述。
10 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:24] 🕰 Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA(...
【周末特辑】6月第2周最火AI论文 | LLM自我反思提升性能;高熵Token优化推理。
08 Jun 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:47] TOP1(🔥169) | 💡 Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning(反思、重试、...
2025.06.06 | 智能助手加速ComfyUI开发;单步视频修复提升效率。
07 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:24] 🤖 ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development(ComfyUI-Copilot:用于自...
2025.06.05 | 紧凑强大视觉模型;多阶段训练提升推理能力
06 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:21] 🤖 MiMo-VL Technical Report(MiMo-VL 技术报告)[01:14] 💡 Advancing Multimodal Reasoning: From Optimi...
2025.06.04 | 强化学习提升LLM性能;UniWorld统一视觉理解与生成。
05 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 💡 Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning(反思、重试、奖励:通过...
2025.06.03 | 高熵Token提升LLM推理;推理健身房优化强化学习环境。
03 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🧠 Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoni...
【月末特辑】5月最火AI论文 | 小型语言模型在翻译中表现优异;多模态推理模型发展历程综述。
03 Jun 2025
Contributed by Lukas
本期的 10 篇论文如下:[00:40] TOP1(🔥209) | 🌐 Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model(...
2025.06.02 | 延长RL提升推理;快慢思考优化推理。
02 Jun 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 🧠 ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models(ProRL:延...
【周末特辑】6月第1周最火AI论文 | 小型模型在翻译中表现优异;数据中心压缩提升AI效率。
01 Jun 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:43] TOP1(🔥205) | 🌐 Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model(...
2025.05.30 | 推理扩展提升表格推理;多模态模型视频反馈有待优化。
30 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 📊 Table-R1: Inference-Time Scaling for Table Reasoning(Table-R1:表格推理的推理时扩展)[01:02]...
2025.05.29 | 熵机制提升模型性能;令牌路由优化推理效率。
29 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🤖 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models(用于推理语言模型的...
2025.05.28 | 多模态Agent科研任务成功率低;逻辑推理模型存在显著局限。
28 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 🧪 ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows(ScienceBoard:评...
2025.05.27 | AI效率提升需数据压缩;小型模型翻译更高效。
27 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:24] 🗜 Shifting AI Efficiency From Model-Centric to Data-Centric Compression(AI效率转移:从以模型为中...
2025.05.26 | TabSTAR提升表格数据分类性能;QwenLong-L1优化长文本推理
26 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 📊 TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations(TabSTAR:具有语义...
【周末特辑】5月第4周最火AI论文 | Qwen3提升LLMs性能;BAGEL增强多模态推理。
24 May 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:42] TOP1(🔥146) | 🤖 Qwen3 Technical Report(Qwen3技术报告)[03:08] TOP2(🔥114) | 💡 Emerging Properti...
2025.05.23 | 智能体加速科研;推理模型指令遵循不佳。
23 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🧪 NovelSeek: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification...
2025.05.22 | Web导航效率提升;量化误差优化。
22 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:25] 🤖 Web-Shepherd: Advancing PRMs for Reinforcing Web Agents(Web-Shepherd:用于增强Web代理的PRM的进...
2025.05.21 | 多模态预训练提升复杂任务能力;注意力机制优化推理与训练效率。
21 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 💡 Emerging Properties in Unified Multimodal Pretraining(统一多模态预训练中的涌现属性)[01:0...
2025.05.20 | 模型链学习提升效率;AdaptThink优化推理速度。
20 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 🔗 Chain-of-Model Learning for Language Model(模型链学习:一种用于语言模型的新型学习范式...
2025.05.19 | Qwen3提升LLMs性能;GuardReasoner-VL强化VLM安全。
19 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:24] 🤖 Qwen3 Technical Report(Qwen3技术报告)[01:14] 🛡 GuardReasoner-VL: Safeguarding VLMs via Reinforc...
【周末特辑】5月第3周最火AI论文 | Seed1.5-VL多模态推理领先;MiniMax-Speech零样本语音克隆
17 May 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:38] TOP1(🔥126) | 💡 Seed1.5-VL Technical Report(Seed1.5-VL 技术报告)[03:11] TOP2(🔥109) | 🗣 MiniMa...
2025.05.16 | 推理模型元能力提升;系统提示优化与鲁棒性增强
16 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:24] 💡 Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models(超越“Aha!”时刻...
2025.05.15 | 解耦学习提升感知性能;多模态模型优化图像生成。
15 May 2025
Contributed by Lukas
本期的 11 篇论文如下:[00:23] 🖼 DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception(DeCLIP:用于开放词汇密集感知的...
2025.05.14 | 零样本语音合成新模型;多维度评估LLM指令能力
14 May 2025
Contributed by Lukas
本期的 8 篇论文如下:[00:25] 🗣 MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder(MiniMax-Speech:具有...
2025.05.13 | 视觉-语言模型提升多模态能力;优化训练策略增强推理潜力。
13 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:24] 💡 Seed1.5-VL Technical Report(Seed1.5-VL 技术报告)[01:04] 🧠 MiMo: Unlocking the Reasoning Potenti...
2025.05.12 | 波兰语模型优化;高效参数利用
12 May 2025
Contributed by Lukas
本期的 7 篇论文如下:[00:23] 🇵 Bielik v3 Small: Technical Report(Bielik v3 Small:技术报告)[01:07] 🇵 Bielik 11B v2 Technical R...
【周末特辑】5月第2周最火AI论文 | 零数据自博弈推理;多模态长推理模型综述
10 May 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:42] TOP1(🔥93) | 🚀 Absolute Zero: Reinforced Self-play Reasoning with Zero Data(绝对零度:基于零数据...
2025.05.09 | 多模态推理模型发展综述;通用智能评估框架提出
09 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🧠 Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models(感知、推理、思...
2025.05.08 | 多模态模型整合潜力大;零搜索提升LLMs效率。
08 May 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:21] 💡 Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities(统一多...
2025.05.07 | 多模态思维链提升模型性能;零数据自博弈强化推理能力。
07 May 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:24] 🧠 Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning(基于强化微调的...
2025.05.06 | Voila实现低延迟全双工对话;RM-R1提升大模型推理奖励。
06 May 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🤖 Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play(Voila:...
2025.05.05 | PixelHacker提升图像修复质量;分层记忆增强图像编辑可控性。
05 May 2025
Contributed by Lukas
本期的 8 篇论文如下:[00:21] 🖼 PixelHacker: Image Inpainting with Structural and Semantic Consistency(PixelHacker:基于结构和语义...
【周末特辑】5月第1周最火AI论文 | 相机运动理解显著提升;单样本强化学习提升推理能力。
03 May 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:43] TOP1(🔥149) | 🎥 Towards Understanding Camera Motions in Any Video(迈向理解任意视频中的相机运...
2025.05.02 | 交互式视频生成技术探讨;DeepCritic提升大模型评判能力。
02 May 2025
Contributed by Lukas
本期的 8 篇论文如下:[00:28] 🎮 A Survey of Interactive Generative Video(交互式生成视频综述)[01:05] 🧐 DeepCritic: Deliberat...
2025.05.01 | 阿拉伯语变音难题新解;深度推理模型能力增强
01 May 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:21] 🗣 Sadeed: Advancing Arabic Diacritization Through Small Language Model(Sadeed:通过小型语言模型推...
2025.04.30 | 多模态检索增强生成;单样本强化学习提升推理。
30 Apr 2025
Contributed by Lukas
本期的 12 篇论文如下:[00:24] 🔍 UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granulariti...
2025.04.29 | RepText提升多语言文本渲染;LLM改进手机GUI自动化。
29 Apr 2025
Contributed by Lukas
本期的 11 篇论文如下:[00:23] ✍ RepText: Rendering Visual Text via Replicating(RepText:通过复制渲染视觉文本)[01:02] 📱 LL...
2025.04.28 | 视频相机运动理解提升;多模态推理模型优化
28 Apr 2025
Contributed by Lukas
本期的 11 篇论文如下:[00:22] 🎥 Towards Understanding Camera Motions in Any Video(迈向理解任意视频中的相机运动)[01:04] 🧠...
【周末特辑】4月第4周最火AI论文 | 阿拉伯语模型扩展成功;强化学习提升有限。
26 Apr 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:33] TOP1(🔥108) | 💡 Kuwain 1.5B: An Arabic SLM via Language Injection(Kuwain 1.5B:一种基于语言注入的...
2025.04.25 | 开源模型超越闭源;新型评估指标提升生成质量。
25 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:24] 🖼 Step1X-Edit: A Practical Framework for General Image Editing(Step1X-Edit:一个通用的图像编辑实...
2025.04.24 | 视觉推理评估新基准;高保真人脸替换技术
24 Apr 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:23] 👁 VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models(VisuLogic:...
2025.04.23 | 阿拉伯语性能提升;推理任务性能显著提高。
23 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 💡 Kuwain 1.5B: An Arabic SLM via Language Injection(Kuwain 1.5B:一种基于语言注入的阿拉伯语S...
2025.04.22 | LUFFY提升推理性能;FlowReasoner增强系统适应性。
22 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:25] 🧠 Learning to Reason under Off-Policy Guidance(离线策略指导下的推理学习)[01:00] 🤖 FlowRea...
2025.04.21 | 强化学习未提升新推理能力;MIG优化指令微调数据选择。
21 Apr 2025
Contributed by Lukas
本期的 9 篇论文如下:[00:22] 🤔 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?(强化学...
【周末特辑】4月第3周最火AI论文 | 多模态模型InternVL3创新预训练;Seaweed-7B高效视频生成。
19 Apr 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:52] TOP1(🔥223) | 🖼 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Mod...
2025.04.18 | CLIMB提升领域模型表现;反蒸馏采样防止模型被盗用。
18 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 🗂 CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training(CLIMB:基...
2025.04.17 | ColorBench测试VLM颜色理解;BitNet提升计算效率。
17 Apr 2025
Contributed by Lukas
本期的 11 篇论文如下:[00:27] 🎨 ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception...
2025.04.16 | Genius提升LLM推理能力;xVerify高效验证推理模型。
16 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🧠 Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning(Genius:...
2025.04.15 | 多模态模型性能提升;低资源推理加速优化
15 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 🖼 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models(InternVL3...
2025.04.14 | 经济高效视频生成;自回归图像生成扩展。
14 Apr 2025
Contributed by Lukas
本期的 13 篇论文如下:[00:24] 🎬 Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model(Seaweed-7B:一种经济高效...
【周末特辑】4月第2周最火AI论文 | SmolVLM优化多模态模型性能;OmniSVG提升SVG生成质量。
12 Apr 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:44] TOP1(🔥149) | 💡 SmolVLM: Redefining small and efficient multimodal models(SmolVLM:重新定义小型高...
2025.04.11 | Kimi-VL模型表现优异;VCR-Bench评估推理瓶颈。
11 Apr 2025
Contributed by Lukas
本期的 14 篇论文如下:[00:22] 🧠 Kimi-VL Technical Report(Kimi-VL技术报告)[01:05] 🎬 VCR-Bench: A Comprehensive Evaluation Framew...
2025.04.10 | DDT提升图像生成质量;GenDoP优化相机轨迹生成。
10 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:25] 🎨 DDT: Decoupled Diffusion Transformer(解耦扩散Transformer)[01:05] 🎬 GenDoP: Auto-regressive Came...
2025.04.09 | OmniSVG生成高质量SVG图形;Skywork R1V多模态推理出色。
09 Apr 2025
Contributed by Lukas
本期的 13 篇论文如下:[00:22] 🎨 OmniSVG: A Unified Scalable Vector Graphics Generation Model(OmniSVG:一个统一的可扩展矢量图...
2025.04.08 | 分钟级AI视频生成;小型模型超越大型模型
08 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:21] 🎬 One-Minute Video Generation with Test-Time Training(基于测试时训练的分钟级视频生成)[01:...
2025.04.07 | 多语言基准测试揭示LLMs跨语言泛化局限,具身智能新方法提升规划效率与适应性。
07 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 🛠 Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving(Multi-SWE-bench:一个用于问题解决...
【月末特辑】3月最火AI论文 | 稀疏自编码器提升文本检测,动态Tanh优化Transformer
06 Apr 2025
Contributed by Lukas
本期的 10 篇论文如下:[00:42] TOP1(🔥226) | 🤖 Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders(基于稀...
【周末特辑】4月第1周最火AI论文 | 智能体设计挑战,视觉文本生成创新。
05 Apr 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:40] TOP1(🔥101) | 🧠 Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolution...
2025.04.04 | 智能体自主提升,视觉编辑推理重要。
04 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:19] 🧠 Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborat...
2025.04.03 | MergeVQ高效生成高质量图像,类R1-Zero提升视觉空间推理。
03 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:23] 🎨 MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and ...
2025.04.02 | 视频生成精度提升,强化学习增强视频理解。
02 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:21] 🎬 Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation(Any2Caption:将任...
2025.04.01 | 多文本渲染新方法,电影级对话角色合成
01 Apr 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🖼 TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes(TextCrafter:复杂视觉场景...
2025.03.31 | 减少token使用,提升领域效率。
31 Mar 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 💡 AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation(Adapt...
【周末特辑】3月第4周最火AI论文 | 稀疏自编码器解读LLM推理特征,多模态模型创新。
29 Mar 2025
Contributed by Lukas
本期的 5 篇论文如下:[00:37] TOP1(🔥109) | 🧠 I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models...
2025.03.28 | 视频推理提升,GUI动作预测优化
28 Mar 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🧠 Video-R1: Reinforcing Video Reasoning in MLLMs(Video-R1:增强多模态大语言模型中的视频推理...
2025.03.27 | Dita跨模态策略优异,Qwen2.5-Omni多模态实时响应。
27 Mar 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:26] 🤖 Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy(Dita:扩展扩散Tran...
2025.03.26 | 视频预测性能提升,多模态预训练效果显著。
26 Mar 2025
Contributed by Lukas
本期的 15 篇论文如下:[00:22] 🎬 Long-Context Autoregressive Video Modeling with Next-Frame Prediction(基于下一帧预测的长程上下...