达摩院创新突破！多模态大模型引领医疗科技未来探索！

医学知识覆盖不全，深度不足：过于依赖影像-文本对：许多现有工作主要通过对齐医学影像和相关的文本描述（如放射报告）来学习。这种方式虽然能建立基本的视觉-语言联系，但对于影像之外的广阔医学知识，如药理学、病理生理学、临床指南、公共卫生知识等的覆盖非常有限。对多模态整合的深度和广度不足：可能过于偏重某一模态（如X光片），对其他重要医学影像模态（如病理、内镜、超声等）的覆盖和理解不足。

LLand520

1389人浏览 · 2025-06-25 18:36:54

LLand520 · 2025-06-25 18:36:54 发布

在人工智能飞速发展的今天，多模态大语言模型（MLLMs）已在通用视觉理解领域展现出惊人潜力。然而。当AI走进医院、面对复杂的医学影像和专业任务时，真正的挑战才刚刚开始：

知识局限：医学知识覆盖不全，仅靠影像远远不够；
幻觉频现：回答看似有理，实则漏洞百出，容易“一本正经地胡说八道”；
推理匮乏：面对复杂病情，AI常常缺乏像医生那样的推理能力。

为了解决这些难题，阿里巴巴达摩院团队在医疗领域进行初步尝试，打造了医疗领域的多模态大模型！

数据底子扎实，懂医学也懂“常识”：该模型背后是一套覆盖广泛的高质量数据处理和合成流程，吸收了海量医学文本和通用知识内容，通过自动合成技术，构建了高质量的图文描述、医学问答和推理样本。
像医生一样进阶式学习：模型采用“多阶段训练”策略，从基础医学认知，到复杂病例分析，逐步注入专业知识与临床经验，模型能力层层跃升。经过训练，我们希望其更具备基础的医学逻辑与推理能力，初步展现出处理真实世界医疗任务的潜力。
考试标准严苛，评估体系权威：为确保模型不是“闭门造车”，团队特别开发了MedEvalKit评估体系，涵盖多模态问答、文本问答和医学报告生成等关键任务，对接真实医疗场景，全面衡量模型能力与安全性。
成绩领先，全面超越主流大模型：在多个权威多模态医疗测试中，32B模型以平均高出第二名7.2个百分点的成绩刷新记录，超越GPT-4.1与Claude Sonnet 4等商用领先模型，展现出强大的专业应用潜力。

论文链接：https://arxiv.org/abs/2506.07044

项目主页：https://alibaba-damo-academy.github.io/lingshu/

MedEvalKit：https://github.com/alibaba-damo-academy/MedEvalKit

当前多模态大模型在医疗领域面临的挑战

医学知识覆盖不全，深度不足：
1. 过于依赖影像-文本对：许多现有工作主要通过对齐医学影像和相关的文本描述（如放射报告）来学习。这种方式虽然能建立基本的视觉-语言联系，但对于影像之外的广阔医学知识，如药理学、病理生理学、临床指南、公共卫生知识等的覆盖非常有限。
2. 对多模态整合的深度和广度不足：可能过于偏重某一模态（如X光片），对其他重要医学影像模态（如病理、内镜、超声等）的覆盖和理解不足。

2.数据质量参差不齐，易产生“幻觉”：

1. 开源数据噪声大：许多公开的医学多模态数据集来源于科研论文自动抽取或网络抓取，不可避免地含有噪声、不准确信息或冗余内容。
2. 数据合成质量难控：一些工作尝试通过模型蒸馏等方式合成数据，但如果缺乏有效的监督和质量控制，合成数据可能继承甚至放大基础模型的偏见或错误，导致模型更容易产生“幻觉”（即生成不符合事实或无意义的内容）。
3. 缺乏细粒度标注：医学影像的解读需要精确到细节，但很多数据集的标注较为粗糙，难以支撑模型学习细致的病灶特征和微妙的诊断线索。

3.缺乏针对复杂医疗场景的推理能力：

1. 简单问答为主：现有模型在处理简单的图像描述或直接问答（如“图片中是什么器官？”）方面可能表现尚可，但面对需要多步推理、整合多源信息、进行鉴别诊断等复杂医疗场景时，其推理能力往往不足。
2. “黑箱”特性：许多模型的决策过程不透明，难以解释其诊断或建议的依据，这在对可靠性和可解释性要求极高的医疗领域是严重缺陷。

4.评测标准不统一，难以横向比较：

1. 各自为政的评估：不同研究往往在不同的数据集子集、不同的评估指标上进行评测，导致模型之间的性能难以进行公平、直接的比较。
2. 复现困难：许多模型的代码和数据不完全公开，或者环境配置复杂，使得其他研究者难以复现其结果，阻碍了领域的发展。

为了解决上述问题，我们从数据构造，模型训练以及评测框架三个层面进行探索。

数据构造

要让AI真正“懂医学”，离不开高质量的数据，但医学领域的数据不仅少，而且复杂、难获取。为此，我们构造了一套全流程的医疗多模态数据收集和合成流程：

高质量的数据合成和增强：面对一些简短、模糊的医学描述，我们用大模型能力“补全细节”，生成更丰富、更专业的图文解释。同时从专业医学教材和题库提取图文信息生成指令数据，提高对嵌入文本的识别能力。此外还合成了大量的医学视觉问答数据，帮助模型回答诊断和医学相关的问题。最后我们还设计了CoT医疗推理数据合成流程，生成医疗的推理思维链路数据，帮助模型更好理解复杂医学问题。
严格质量控制：所有数据经过严格筛选和清洗，比如图像和文本去重、答案准确性检查等，以确保数据的高质量和相关性。

通过以上流程，我们一共得到2.55M条高质量医疗描述数据和2.5M医疗指令数据，同时引入了大量通用域的数据，作为模型训练基础。

模型训练

多模态医学大模型基于Qwen2.5-VL（7B和32B的Instruct版本）进行持续训练，为了更好的让模型深入理解多模态医疗知识，我们设计了以下多阶段训练范式：

医疗浅层对齐：我们先让模型对医学影像（如X光、CT、MRI）与对应的医学描述的理解能力。初步建立医学影像特征与语言模型表征空间的连接。通过快速适应医学影像的基本特征，为后续深层融合奠定基础。
医疗深层对齐：我们使用更复杂、更长的图文数据，还加入了通用世界知识数据，进行端到端微调。让模型能深度融合多模态医学信息，从而有可能处理更细致的医学内容，比如肿瘤特征、病变位置等，朝着“通用医生”进行努力。
医疗指令微调：我们使用大规模、多样化的医疗指令数据（包括VQA、报告生成、OCR、CoT推理等）以及通用的多模态/文本指令数据和医学文本数据进行端到端微调，增强模型的任务泛化能力和复杂场景的应答能力，使其更贴近实际医疗应用。
面向医疗的强化学习：我们还初步探索了强化学习训练在对医疗多模态任务提升的潜力。我们构建了约10万条的医疗可验证数据集，采用可验证奖励强化学习（RLVR）范式，利用GRPO算法进行训练。期望探索通过奖励信号引导模型生成更准确、更具逻辑性的医疗推理路径。

统一的评测框架：MedEvalKit

为解决现有医疗MLLMs 评测标准不一、复现困难的问题，我们开发了一个涵盖面广，易于使用，高效评测的医疗评测框架MedEvalKit。

1.MedEvalKit汇集了主流的医疗多模态和文本评测基准，包括：

a.多模态QA：VQA-RAD, SLAKE, PathVQA, PMC-VQA (v2), OmniMedVQA, MMMU (Health & Medical), MedXpertQA (multimodal)。

b.文本QA：MMLU (medical subset), PubMedQA, MedMCQA, MedQA-USMLE, MedBullets, MedXpertQA (text), SuperGPQA。

c.报告生成：MIMIC-CXR, IU-Xray, CheXpert Plus。共计覆盖16个基准数据集，15.2万评估样本和12.1万张不同的医学影像。

2.标准化流程：统一了数据预处理、模型推理接口和后处理协议，支持一键式评估。

3.多维度评估：针对不同任务类型采用特定评估指标（如QA任务的准确率，报告生成任务的ROUGE-L, CIDEr, SembScore, RaTEScore, RadCliQ-v1）。并支持“LLM-as-a-Judge”策略辅助评估，兼顾客观与主观评价。

4.高效与可扩展：支持vLLM进行推理加速；支持多种模型评测；支持多种输出模式评测（如直接输出答案评测，先推理后解析答案进行评测等）。

模型结果

我们使用MedEvalKit上对我们的医疗多模态大模型和当前主流多模态医疗模型进行了全面评估：

医疗多模态问答测试：

a.32B模型在所有7个多模态基准测试中取得了平均66.6%的准确率，超越了包括GPT-4.1 (63.4%)、Claude Sonnet 4 (61.5%) 和 Gemini-2.5-Flash (65.1%) 在内的所有专有模型和开源模型，并在VQA-RAD, SLAKE, PathVQA, OmniMedVQA, MedXpertQA-Multimodal 等多个数据集上取得最佳成绩。

b.7B模型在<10B参数规模的开源模型中表现最佳，平均准确率达到61.8%，显著优于其他同类模型。
在医疗文本基准测试和医学报告生成：我们的模型也表现优异，超越了所有对比的开源模型。

3.除了标准数据评测外，我们也展示了在医学影像问答、医学诊断、医学知识解释、公共卫生问题分析以及医学报告生成等真实场景中的应用潜力。

未来方向

虽然我们的模型在多个权威多模态医疗测试取得领先，然而在使用过程中仍会出现幻象，无法准确识别病种等问题。因此在推动医疗多模态大模型发展的过程中，我们总结出五个值得关注的核心方向，以突破当前技术瓶颈，提升模型在真实临床中的应用价值：

高质量医疗数据的构建：当前医学图文数据稀缺且获取成本高，未来需投入更多资源构建多样化、高可信度的数据集，并引入“人在环路”（human-in-the-loop）的自动化评估与优化机制，提升数据质量与产出效率。
更全面的医疗多模态基准：现有医疗基准未能充分反映复杂的真实场景。未来需借鉴HealthBench等框架，打造更具代表性、更实用的医学多模态评估体系，更准确地衡量模型在临床中的表现。
扩展模型能力边界：当前模型对3D影像、超高分辨率病理图（WSI）、组学数据等的支持仍依赖预处理。未来将发展原生支持新模态的能力，使模型更好地理解CT、MRI、病理、基因组等复杂医学信息。
面向医疗场景的训练策略优化：医学领域推理高度依赖临床经验与知识。后续训练需要更加聚焦医疗语境，开发定制化奖励函数&过程监督方法，探索针对医疗MLLMs的强化学习方法。让模型的输出更契合医疗任务需求，满足专业医疗场景下复杂的医疗推理需求。
医疗相关专业评估指标引入：虽然MedEvalKit已初步引入医学任务指标，但当前仍以通用评估标准为主。未来应进一步引入如C-index、临床疗效评分、决策曲线分析等医学专用指标，同时结合专家人工评审，全面提升模型评估的可信度、实用性与安全保障。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至：月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

二、如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

* 大模型 AI 能干什么？
* 大模型是怎样获得「智能」的？
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例：向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示（Embeddings）
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2：手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身：基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例：如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

国家发改委点名具身智能训练基础设施：机器人为什么要从赛场跑向工厂、商场和家庭？

过去几年，大模型让 AI 具备了很强的理解、生成、推理能力。但多数大模型仍然主要活在数字世界里：你输入文字，它输出答案；你输入图片，它输出描述；你输入需求，它生成代码或方案。具身智能不同。它强调 AI 必须绑定一个“身体”，比如人形机器人、机械臂、四足机器人、轮式机器人、无人车等。这个身体有摄像头、雷达、触觉、关节、电机、执行器，能够感知环境、理解任务、做出动作，并从真实物理反馈中学习。这意味着具

魔珐星云开发社区

金融贸易之外，香港能成为具身智能创新策源地吗？

在5月12日的首届香港具身智能产业峰会上，多家参会企业创始人都表示，将香港定为其全球化布局的第一站。那，为什么是香港？可以从四个维度解释：人才、资本、场景以及背靠大湾区的供应链优势。首先，香港在人才和科研上优势明显。QS2026年世界大学排名中，香港有5所高校进入全球百强——香港大学第11名、香港中文大学32名、香港科技大学44名、香港理工大学54名、香港城市大学63名。这种高密度的学术集群全球都