多模态（文本图像）理解与生成模型速览：Ovis-U1-3B

Ovis-U1是一款30亿参数的多模态统一模型，集成文本理解、图像生成和编辑功能。采用双流架构（语义流和细节流）结合自注意力机制，支持从文本到图像的生成（1024×1024分辨率）和基于文本的图像编辑。在多项基准测试中表现优异：OpenCompass综合得分69.6，GenEval单物体任务达0.89分，DPG-Bench总体83.72分，ImgEdit-Bench编辑质量评分4.0。该模型通过统

Panesle

982人浏览 · 2025-07-02 22:30:00

Panesle · 2025-07-02 22:30:00 发布

Ovis-U1

一、引言与背景

Ovis-U1 是在 Ovis 系列基础上构建的，拥有 30 亿参数的统一模型。它能够在单一强大框架内无缝集成多模态理解、文本到图像生成以及图像编辑等多种功能。该模型的出现，为多模态任务的处理提供了一种更为高效和便捷的解决方案，有望在众多领域得到广泛应用。

二、模型架构

Ovis-U1 的整体架构包含多个关键模块：

视觉编码器 ：采用 Avere Pooling Visual Encoder，用于对输入的图像信息进行编码处理，提取出具有代表性的视觉特征。
文本嵌入模块 ：通过 Text Tokenizer 将文本信息转化为可被模型处理的文本嵌入表示，以便与视觉信息进行融合和交互。
双流架构 ：包括视觉语义流和视觉细节流，其中视觉语义流利用 Visual Semantic Embedding 等模块处理图像的语义信息；视觉细节流则借助 Visual Detailed Embedding 等模块关注图像的细节特征。
自注意力机制 ：在双流架构中，自注意力模块可以使模型更好地捕捉文本和图像不同部分之间的关联和依赖关系，从而更准确地理解多模态信息。
噪声调制与 MLP ：Noise Modulation 和 MLP（多层感知机）结构用于对特征进行进一步的非线性变换和融合，以增强模型的表达能力。
解码器部分 ：视觉解码器采用 VAE（变分自编码器）Decoder 结构，能够将融合后的文本和图像特征解码生成相应的图像输出，实现文本到图像的生成以及图像编辑等功能。

三、安装与依赖

Ovis-U1 在 Python 3.10、Torch 2.4.0、Transformers 4.51.3 以及 DeepSpeed 0.15.4 的环境下进行了测试。其安装过程主要包括以下几个步骤：

克隆项目仓库：使用 git clone 命令获取 Ovis-U1 的代码仓库。
创建并激活 conda 环境：通过 conda create 命令创建名为 ovis-u1 的 Python 3.10 环境，并激活该环境。
安装依赖包：使用 pip install -r requirements.txt 命令安装项目所需的各种依赖包，以确保模型运行所需的库和工具都已就绪。
安装项目包：采用 pip install -e . 命令将项目本身作为可编辑包进行安装，方便后续对代码的修改和调试。

四、推理任务

Ovis-U1 支持多种推理任务，包括多模态理解、文本到图像生成以及图像编辑。

多模态理解 ：只需运行 python test_img_to_txt.py，模型就能够对输入图像进行理解，并生成相应的文本描述，实现图像到文本的转换任务。
文本到图像生成 ：运行 python test_txt_to_img.py，并通过设置 --height、–width、–steps、–seed、–txt_cfg 等参数，可以依据给定的文本生成对应高度和宽度的图像。例如，设置生成图像的高度为 1024、宽度为 1024，采样步数为 50，随机种子为 42，文本配置权重为 5，即可开始生成图像。
图像编辑 ：通过执行 python test_img_edit.py 命令，结合 --steps、–img_cfg、–txt_cfg 等参数，能够对输入图像进行编辑修改。如设置采样步数为 50，图像配置权重为 1.5，文本配置权重为 6，实现基于文本描述的图像编辑操作。

五、性能评估

OpenCompass 多模态学术基准测试 ：Ovis-U1 在该基准测试中表现优异，在多个子任务上取得了较高的分数。例如在 MMB（多模态基准）任务上得分为 77.8，在 MMS（多模态系统）任务上得分为 61.3，在 MMMU（多模态多任务理解）任务上得分为 51.1，MathVista 任务得分为 69.4，Hallusion 任务得分为 56.3，AI2D 任务得分为 85.6，OCRBench 任务得分为 88.3，综合平均得分为 69.6。
GenEval 评估 ：在 GenEval 测试中，Ovis-U1 的整体表现良好。在单物体任务中，Overall 得分为 0.89，Counting 得分为 0.98，Colors 得分为 0.98，Position 得分为 0.90；在双物体任务中，Attribute 得分为 0.75。
DPG-Bench 评估 ：Ovis-U1 在 DPG-Bench 测试中的 Overall 得分为 83.72，Global 得分为 82.37，Entity 得分为 90.08，Attribute 得分为 88.68，Relation 得分为 93.35，Other 得分为 85.20。
ImgEdit-Bench 评估 ：在图像编辑基准测试中，Ovis-U1 的 Overall 得分为 4.00，Add 得分为 4.13，Adjust 得分为 3.62，Extract 得分为 2.98，Replace 得分为 4.45，Remove 得分为 4.06，Background 得分为 4.22，Style 得分为 4.69。

六、总结

Ovis-U1 作为一种多模态统一模型，在多模态理解、文本到图像生成和图像编辑等多个任务上均展现出了强大的性能和广泛的应用潜力。其创新的架构和高效的算法使其在众多模型中脱颖而出，为多模态领域的研究和应用提供了一个有力的工具。

以下是 Ovis-U1 论文中的核心技术汇总表格：

在这里插入图片描述

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

算力为核，智驱无界——视程空间硬核赋能机器狗与机器人，解锁具身智能产业新未来

魔珐星云开发社区

小白程序员必看！收藏这份AI就业岗位与薪资全解析，轻松入行大模型

魔珐星云开发社区

戳破数字人行业谎言：90%的“可交互”，其实都是“预制播报工具”

行业里有个误区，总觉得数字人越逼真，就越有价值。但实测后我发现，逼真只是“加分项”，能落地、能交互、能创造价值，才是“核心项”。市面上90%的数字人，都陷入了“炫技陷阱”——把精力放在形象拟真上，却忽略了交互的本质；而魔珐星云最难得的地方，是跳出了这个陷阱，用“端侧渲染+参数流”的技术，重构了数字人的应用范式：它不追求“最逼真”，但追求“最好用”；不堆砌单点技术，而是打通全链路协同。如果你是开发者