多模态视觉大模型的架构

参考文献： Awais M, Naseer M, Khan S, et al. Foundational models defining a new era in vision: A survey and outlook. arXiv, 2023.参考文献： Alayrac J B, Donahue J, Luc P, et al. Flamingo: a visual language mode

Terrence.虚

437人浏览 · 2025-02-27 16:27:59

Terrence.虚 · 2025-02-27 16:27:59 发布

多模态

类型1：输入与输出模态不同
类型2：多模态输入
类型3：多模态输出

在这里插入图片描述

多模态网络的要素

在这里插入图片描述

参考文献： Awais M, Naseer M, Khan S, et al. Foundational models defining a new era in vision: A survey and outlook. arXiv, 2023.

CLIP（Contrastive Language-Image Pre-training）

在这里插入图片描述

参考文献：Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision. ICML, 2021.

GLIP（Grounded Language-image pre-training）

在这里插入图片描述

Flamingo

在这里插入图片描述

参考文献： Alayrac J B, Donahue J, Luc P, et al. Flamingo: a visual language model for few-shot learning. NIPS, 2022.

多模态视觉对话效果：
在这里插入图片描述

LLaVA

网络结构：
在这里插入图片描述
参考文献：Liu H, Li C, Wu Q, et al. Visual instruction tuning. arXiv, 2023.

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

魔珐星云开发社区

AI情报——2026年5月19日

AIDevBoard数据显示8720个AI岗位中，LLM相关岗位2602个（均薪24.3万美元），Agent岗位2440个（均薪23万美元），两者合计超5000个岗位。我是AI方向的猎头Felix，我这边有优质的AI公司，base在北京、上海、深圳等一线城市，AI+社交领域，具身智能领域等都有涉猎，福利待遇完善，具备和大厂同台竞技的能力。联合中兴、中国电信、中国联通等发布，可实现跨平台智能体身份互