英伟达：多模态强化学习框架MR-SP

如何有效地扩展强化学习（RL）以处理长视频的复杂推理任务？论文提出了一种新的多模态强化学习框架MR-SP，专门针对长视频的推理，提高了模型在处理长时间序列数据时的效率和效果。

大模型任我行

932人浏览 · 2025-07-16 10:00:00

大模型任我行 · 2025-07-16 10:00:00 发布

在这里插入图片描述

📖标题：Scaling RL to Long Videos
🌐来源：arXiv, 2507.07966

🌟摘要

我们引入了一个全栈框架，该框架利用强化学习将视觉语言模型 (VLM) 中的推理扩展到长视频。我们通过集成三个关键组件来解决长视频推理的独特挑战：（1）大规模数据集 LongVideo-Reason，包括 52K 长视频 QA 对，具有跨不同领域的高质量推理注释，例如运动、游戏和 vlog； (2) 两阶段训练管道，通过思维链监督微调 (CoT-SFT) 和强化学习 (RL) 扩展 VLM； (3) 长视频 RL 的训练基础设施，称为多模态强化序列并行性 (MR-SP)，它结合了序列并行性和基于 vLLM 的长视频引擎，使用缓存的用户嵌入进行有效的推出和预填充。在实验中，LongVILA-R1-7B 在 VideoMME 等长视频 QA 基准上实现了强大的性能。它还优于 Video-R1-7B，甚至可以在我们的 LongVideo-Reason-eval 基准上跨时间推理、目标和目的推理、空间推理和情节推理匹配 Gemini-1.5-Pro。值得注意的是，我们的 MR-SP 系统在长视频 RL 训练上实现了高达 2.1 倍的加速。LongVILA-R1 表现出与输入视频帧尺度的数量一致的性能提升。LongVILA-R1 标志着企业在 VLM 中朝着长视频推理迈出一步。此外，我们发布了我们的公共可用性训练系统，该系统支持对各种模式（视频、文本和音频）、各种模型（VILA 和 Qwen 系列）的 RL 训练，甚至图像和视频生成模型。在单个 A100 节点 (8 个 GPU) 上，它支持对小时长视频（例如，3,600 帧/大约 256k 个令牌）的 RL 训练。代码和模型可在 https://github.com/NVlabs/Long-RL 获得。

🛎️文章简介

🔸研究问题：如何有效地扩展强化学习（RL）以处理长视频的复杂推理任务？
🔸主要贡献：论文提出了一种新的多模态强化学习框架MR-SP，专门针对长视频的推理，提高了模型在处理长时间序列数据时的效率和效果。

📝重点思路

🔸构建高质量的数据集LongVideo-Reason，包括52K个问题-推理-答案对，并通过高效的自动注释管道生成数据。
🔸采用两阶段训练策略：第一阶段为长视频推理的CoT（Chain of Thought）监督微调，利用18K高质量样本；第二阶段使用强化学习，对33K长视频问答进行训练。
🔸引入序列并行技术（SP）和缓存机制，以提高长视频编码的效率并减少计算开销。

🔎分析总结

🔸实验证明LongVILA-R1模型在不同推理任务上表现优越，尤其在长视频的时序、目标和空间推理等方面，超越了诸如GPT-4o等现有模型。
🔸模型在长视频推理基准LongVideo-Reason-eval上的平均准确率达到67.9%，显示出其在处理复杂推理任务时的强大能力。
🔸强调了在没有CoT微调情况下直接进行强化学习训练会导致显著的准确率下降，证明了预训练阶段的重要性。

💡个人观点

论文的创新点在于通过多模态强化学习框架MR-SP，成功应对长视频推理中的计算挑战，并利用高质量标注的数据集有效提升模型的推理能力。

🧩附录

在这里插入图片描述

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

4月30号（科技信息差）

魔珐星云开发社区

对话越擎科技CEO：iRobotCAM如何破解具身智能研发设计工具链难题

魔珐星云开发社区

2026年4月AI大事件汇总

2026年4月AI领域迎来重大发展：OpenAI完成8520亿美元估值融资并收购媒体资产，微软推出自研AI模型，谷歌发布开源Gemma 4。各国加强AI监管，中国出台全球首个AI拟人化服务管理办法。技术突破不断，DeepMind推出具身智能机器人，特斯拉发布AI5芯片，多款大模型更新性能显著提升。行业格局持续变化，微软与OpenAI关系调整，Meta开发独立AI硬件，SpaceX拟收购AI编程公司