【AI论文】VisualPRM:一种用于多模态推理的有效过程奖励模型
我们推出了VisualPRM,这是一种拥有80亿参数的高级多模态过程奖励模型(Process Reward Model, PRM),它采用“最佳N选”(Best-of-N, BoN)评估策略,能够提升现有不同规模和系列的多模态大语言模型(Multimodal Large Language Models, MLLMs)的推理能力。具体而言,我们的模型提升了三类MLLMs以及四种不同模型规模的推理性能

摘要:我们推出了VisualPRM,这是一种拥有80亿参数的高级多模态过程奖励模型(Process Reward Model, PRM),它采用“最佳N选”(Best-of-N, BoN)评估策略,能够提升现有不同规模和系列的多模态大语言模型(Multimodal Large Language Models, MLLMs)的推理能力。具体而言,我们的模型提升了三类MLLMs以及四种不同模型规模的推理性能。即便应用于能力强大的InternVL2.5-78B模型,它也能在七个多模态推理基准测试中取得5.9分的提升。实验结果表明,在BoN评估中,我们的模型相较于结果奖励模型(Outcome Reward Models)和自我一致性(Self-Consistency)方法展现出更优的性能。为便于多模态PRM的训练,我们利用自动化数据管道构建了多模态过程监督数据集VisualPRM400K。针对多模态PRM的评估,我们提出了VisualProcessBench基准测试,该测试包含人工标注的逐步正确性标签,用于衡量PRM在多模态推理任务中检测错误步骤的能力。我们期望本项工作能够激发更多未来研究,并为MLLMs的发展做出贡献。我们的模型、数据及基准测试已发布于https://internvl.github.io/blog/2025-03-13-VisualPRM/。Huggingface链接:Paper page,论文链接:2503.10291
研究背景和目的
研究背景
随着大型语言模型(LLMs)在自然语言处理领域的成功,多模态大型语言模型(MLLMs)在视觉与语言任务上也取得了显著进展。这些模型通过结合文本和图像信息,能够在各种视觉语言任务中展现出强大的性能。然而,尽管MLLMs在感知和识别方面表现出色,其在推理能力上仍存在较大差距,尤其是与专有模型相比。这一差距限制了MLLMs在需要高级推理能力的任务中的应用,如复杂的问题解答、逻辑推理等。
为了提升MLLMs的推理能力,研究者们探索了多种方法,包括数据收集与构建、离线偏好优化以及在线强化学习等。其中,测试时缩放(Test-Time Scaling, TTS)作为一种有效的方法,通过生成多个响应候选并使用批评模型来评估其质量,从而选择最佳响应。然而,TTS在MLLMs中的应用仍处于初级阶段,面临缺乏有效批评模型和评估基准等挑战。
特别是在多模态推理任务中,现有的开源MLLMs作为批评模型时表现不佳,难以准确评估推理步骤的正确性。这限制了TTS在提升MLLMs推理能力方面的有效性。因此,开发一种有效的多模态过程奖励模型(Process Reward Model, PRM),以作为TTS中的批评模型,对于提升MLLMs的推理能力具有重要意义。
研究目的
本研究旨在解决多模态推理中MLLMs推理能力不足的问题,通过引入一种先进的多模态过程奖励模型VisualPRM,来提升现有MLLMs的推理能力。具体而言,本研究的目的包括:
- 开发VisualPRM模型:构建一种拥有80亿参数的高级多模态PRM,以作为TTS中的批评模型,提升MLLMs在不同模型和规模下的推理性能。
- 构建训练数据集:利用自动化数据管道构建多模态过程监督数据集VisualPRM400K,以支持VisualPRM的训练。
- 提出评估基准:提出VisualProcessBench基准测试,用于评估PRM和MLLMs在多模态推理任务中检测错误步骤的能力。
- 验证模型性能:通过大量实验验证VisualPRM在提升MLLMs推理能力方面的有效性,并与其他批评模型进行比较。
- 推动领域发展:希望本研究能够激发更多未来研究,并为MLLMs的发展做出贡献。
研究方法
VisualPRM模型构建
VisualPRM是一种多模态PRM,旨在评估多模态推理过程中每个步骤的质量。该模型采用多轮对话任务的形式进行训练,其中每一轮对话包含图像、问题和推理步骤。模型需要预测每个推理步骤的正确性,并根据这些预测来评估整个推理过程的质量。
在模型架构上,VisualPRM采用Transformer架构,并包含图像编码器和文本编码器,以分别处理图像和文本信息。此外,模型还包含一个融合模块,用于将图像和文本特征融合,以支持推理步骤的评估。
为了训练VisualPRM,我们构建了VisualPRM400K数据集,该数据集包含约400,000个多模态过程监督数据样本。每个样本由图像、问题、逐步解决方案和步骤正确性标注组成。我们通过自动化数据管道生成这些数据样本,其中利用蒙特卡洛采样方法估计每个步骤的预期准确性,并将预期准确性超过一定阈值的步骤视为正确。
VisualProcessBench基准测试
为了评估PRM和MLLMs在多模态推理任务中检测错误步骤的能力,我们提出了VisualProcessBench基准测试。该基准测试包含2,866个样本,每个样本由多模态推理问题、逐步解决方案和步骤正确性标注组成。我们雇佣了一组具有大学学位的人类专家来手动标注这些步骤的正确性。
在评估过程中,模型需要分析每个推理步骤,并判断其正确性。我们通过计算模型的F1分数来评估其性能,其中F1分数同时考虑了正确步骤和错误步骤的识别准确率。
实验设置
为了验证VisualPRM在提升MLLMs推理能力方面的有效性,我们在七个多模态推理基准测试上进行了大量实验。这些基准测试包括MMMU、MathVista、MathVision、MathVerse、DynaMath、WeMath和LogicVista,涵盖了主题推理、数学推理和逻辑推理等多种任务类型。
我们采用了BoN评估策略,其中批评模型需要评估多个响应候选的质量,并选择最佳响应。在实验中,我们使用了VisualPRM作为批评模型,并与结果奖励模型(ORM)和自我一致性(SC)方法进行了比较。
研究结果
VisualPRM提升MLLMs推理能力
实验结果表明,VisualPRM能够显著提升不同规模和系列的MLLMs的推理能力。具体而言,在七个多模态推理基准测试上,VisualPRM使InternVL2.5-8B、MiniCPM-V2.6-8B和Qwen2.5-VL-7B等模型的整体性能分别提升了8.4点、8.0点和3.7点。即使在应用于高度能力的InternVL2.5-78B模型时,VisualPRM也能实现5.9点的提升。
与ORM和SC方法相比,VisualPRM在BoN评估中展现出更优的性能。特别是在使用InternVL2.5-8B作为策略模型时,VisualPRM在Best-of-8评估设置下比SC和ORM分别高出2.4点和1.5点。随着响应候选数量的增加,这一性能差距进一步扩大。
VisualPRM在VisualProcessBench上的表现
在VisualProcessBench基准测试上,VisualPRM也展现出了出色的性能。与随机猜测相比,VisualPRM的整体F1分数提高了12.0点,达到了62.0分。与专有模型相比,VisualPRM的性能也相当具有竞争力,甚至在某些情况下超过了GPT-4o和Gemini-2.0-Flash等模型。
VisualPRM在文本推理任务上的泛化能力
为了评估VisualPRM在文本推理任务上的泛化能力,我们在三个文本推理基准测试上进行了实验。结果表明,VisualPRM能够显著提升Qwen2.5系列和InternVL2.5系列模型在文本推理任务上的性能。特别是在MATH-500和GPQA-Diamond基准测试上,VisualPRM使InternVL2.5-8B模型的性能分别提升了9.4点和5.0点。
研究局限
尽管VisualPRM在提升MLLMs推理能力方面取得了显著成效,但本研究仍存在一些局限性:
- 数据集规模:虽然VisualPRM400K数据集包含约400,000个样本,但对于训练一个拥有80亿参数的模型来说,数据集规模仍然有限。这可能导致模型在某些复杂场景下的泛化能力不足。
- 步骤正确性标注:在VisualProcessBench基准测试中,我们雇佣了人类专家来手动标注步骤的正确性。然而,由于标注成本较高,我们无法对所有样本进行标注,这可能导致评估结果存在一定的偏差。
- 模型架构:VisualPRM采用了Transformer架构,并包含图像编码器和文本编码器。然而,随着模型规模的增大,训练成本和计算资源的需求也将显著增加。未来需要探索更高效的模型架构和训练方法。
未来研究方向
针对本研究的局限性,未来研究可以从以下几个方面展开:
- 扩大数据集规模:通过收集更多高质量的多模态过程监督数据,进一步扩大VisualPRM400K数据集的规模,以提升VisualPRM的泛化能力和性能。
- 自动化标注方法:探索自动化标注方法,以降低VisualProcessBench基准测试的标注成本,并提高评估结果的准确性和可靠性。
- 高效模型架构:研究更高效的模型架构和训练方法,以降低VisualPRM的训练成本和计算资源需求,并提升其在复杂场景下的性能。
- 多模态融合方法:探索更有效的多模态融合方法,以更好地结合图像和文本信息,提升VisualPRM在多模态推理任务中的表现。
- 扩展应用场景:将VisualPRM应用于更多实际场景中,如智能客服、教育辅导、医疗诊断等,以验证其在不同领域中的有效性和实用性。通过不断扩展应用场景,可以进一步推动VisualPRM的发展和完善。
更多推荐


所有评论(0)