UniME：用多模态大模型学习通用嵌入表示

🔍 关键结果 UniME在各项任务中均取得显著提升： * 在MMEB基准测试中，全面超越E5-V和VLM2Vec等基线模型 (例如，基于LLaVA-1.6时，整体得分提升3.3%)。* 在零样本短/长文本图文检索和组合性检索任务 (如SugarCrepe) 上表现优异，展示了更强的判别能力和组合理解能力。2️⃣ 困难负样本增强指令微调：首先过滤掉训练批次中的伪负样本，然后针对每个样本采样多个困难

代码检测生成 agent(重庆大学)

298人浏览 · 2025-05-28 10:01:56

代码检测生成 agent(重庆大学) · 2025-05-28 10:01:56 发布

😯 TL;DR UniME提出一个两阶段框架，利用多模态大模型(MLLM)学习通用的多模态嵌入。通过知识蒸馏和困难负样本增强的指令微调，显著提升了嵌入的判别力和组合性。

今日AI论文✈️ https://arxiv.org/pdf/2504.17432

📚 研究背景现有CLIP等模型在多模态表示学习上存在文本长度限制、编码分离、组合性差等问题。MLLM虽强大，但其自回归特性限制了嵌入学习。需要更有效的框架来学习高质量、可迁移的多模态表示。

🧠 方法与实验 UniME框架包含两个阶段：

1️⃣ 文本判别知识蒸馏：利用强大的LLM嵌入模型 (NV-Embed V2) 作为教师，提升MLLM语言组件的嵌入能力。

2️⃣ 困难负样本增强指令微调：首先过滤掉训练批次中的伪负样本，然后针对每个样本采样多个困难负样本进行对比学习，强化模型的判别力和指令遵循能力。实验在MMEB基准和多种检索任务 (短/长文本、组合性检索) 上进行。

🔍 关键结果 UniME在各项任务中均取得显著提升： * 在MMEB基准测试中，全面超越E5-V和VLM2Vec等基线模型 (例如，基于LLaVA-1.6时，整体得分提升3.3%)。 * 在零样本短/长文本图文检索和组合性检索任务 (如SugarCrepe) 上表现优异，展示了更强的判别能力和组合理解能力。

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

动态角色调整：让Multi-Agent系统适应环境变化

随着生成式AI、具身智能、分布式工业系统的快速落地，Multi-Agent（多智能体）系统已经成为复杂场景下任务执行的核心架构。但传统多智能体系统普遍采用静态角色绑定机制，在环境突发变化、节点故障、负载波动等场景下会出现鲁棒性崩塌、资源利用率不足、任务失败等问题。

魔珐星云开发社区

家用扫地机器人技术发展路线浏览版-模块二：环境感知与避障

魔珐星云开发社区

[具身智能-801]：ROS2核心概念

答：可预测性强、可靠性高、行为一致、开源共享、迭代快、可完整遗传复刻、无情绪无疲劳，长期在体力智力统筹慧力上超越普通碳基组织是必然趋势。答：原生分布式、无主节点、DDS 通信、实时性更强、跨平台更好、支持多进程隔离、安全性高、生命周期管理完善，答：可靠 / 尽力传输、历史消息深度、存活时限、送达时限、分区策略，用来调通信实时性与可靠性。答：轮距轮径参数不准、左右电机转速不一致、里程计误差、定位偏差