别再用「给人看的图片格式」喂AI了——我们需要真正AI原生的数据标准

当前的图片格式（JPEG、HEIC）和医学影像格式（DICOM）都是为人眼设计的。但未来的AI——尤其是具身智能和医疗AI——需要的是“机器优先”的数据格式。这篇博客提出两个具体方案：仿生相机的离焦方向图（DDM）和CT的分层HDF5格式。

TORCHKA

690人浏览 · 2026-03-25 18:24:48

TORCHKA · 2026-03-25 18:24:48 发布

面向具身视觉与医学影像的分层式AI-Ready数据格式设计

当前的图片格式（JPEG、HEIC）和医学影像格式（DICOM）都是为人眼设计的。但未来的AI——尤其是具身智能和医疗AI——需要的是“机器优先”的数据格式。这篇博客提出两个具体方案：仿生相机的离焦方向图（DDM）和CT的分层HDF5格式。
本文适合：计算机视觉/具身AI研究者、机器人工程师、医学影像AI从业者、数据标准制定者、影像设备硬件工程师，以及所有关注AI底层基础设施的从业者
发布时间：2026.03.25
预印本占位：后续可能发布
开源资源：(希望会有

开篇导语

过去十年，我们见证了AI视觉从ImageNet分类到多模态大模型的飞跃，从实验室的图像识别走到了机器人、自动驾驶、临床诊断的真实世界。但很少有人注意到一个核心的底层矛盾：我们喂给这些AI系统的视觉数据，从根上就是为人类设计的，先天不适合机器理解。

JPEG、HEIC、PNG，还有医疗领域的全球标准DICOM，这些我们用了几十年的格式，从设计之初就只有两个目标：「人能看清、存得够小」。它们会毫不犹豫地丢掉人眼不关心、但AI理解物理世界必须的核心信息——比如相机的对焦状态、CT的原始扫描数据、每个像素的可信度。

这篇文章里，我们会论证：下一代具身AI和医疗AI的核心瓶颈，往往不是模型不够大，而是底层数据格式的先天不足。我们会给出两个可直接落地、100%向后兼容的AI-Ready数据格式方案，同时发出行业倡议：是时候为AI重新设计视觉数据的底层标准了。

一、为什么现有格式正在拖垮AI的发展？

现有视觉数据格式的核心矛盾，是「人类优先，机器将就」的设计逻辑，在两个安全关键的AI领域，已经变成了无法回避的瓶颈。

1.1 具身AI：只给一张静态图，机器人根本没法和世界交互

人类的视觉从来不是被动拍照，而是主动的闭环系统：我们的眼睛会通过睫状肌不停调整焦距，靠「焦平面在物体前面还是后面」的信号，毫秒级修正视线，快速锁定目标。

但现在的相机，哪怕是手机、工业机器人上的高端设备，都是「用完就丢」：自动对焦用的相位检测数据，算完最终的清晰图片就直接扔掉，输出给AI的只有一张静态2D图。这给具身AI带来了致命的问题：

机器人看到模糊的物体，分不清是「跑焦了」还是「物体本身就是磨砂/低纹理的」；
想做闭环对焦，只能额外加深度传感器，或者靠算力堆耗时的焦点堆叠，延迟和成本双双飙升；
训练数据集全是静态图片，根本没有「主动调整焦距」的物理交互信息，练不出真正能适应动态环境的模型。

1.2 医疗AI：只给医生看的重建图，AI永远跨不过医院的门槛

CT是现代医学的核心影像工具，一次扫描会生成全链路的物理数据：原始投影数据（正弦图）、探测器校准参数、剂量调节记录、能谱物质分解信息……但全球通用的DICOM标准，只存最终给医生看的、重建后的亨氏单位（HU）图像，其他数据要么丢了，要么锁在厂商的私有格式里。

这正是医疗AI「出不了单中心」的核心原因：

一个在本院西门子CT上准确率99%的肺结节检测模型，换到隔壁医院的GE CT上，准确率可能直接掉到70%——因为不同厂商的重建算法、卷积核完全不一样，AI学到的是「这个厂商的图像特征」，而不是「病灶本身的物理特征」；
没有原生的不确定性信息，AI会把金属伪影、运动模糊的像素，和正常组织的像素同等对待，带来临床安全风险；
双能/能谱CT的碘、钙浓度等关键信息，没有标准的存储方式，根本没法用来做大规模的AI训练。

我们的核心理念：机器原生，人类兼容

解决这个矛盾，不是要推翻用了几十年的现有格式，更不是让临床医生、普通用户改变使用习惯。我们要做的，是在不影响人类使用的前提下，给格式加一层结构化的、AI原生的物理信息层——老软件、老设备可以完全忽略这些扩展，照常使用；AI系统则能拿到理解物理世界必须的完整数据。

二、方案1：给主动视觉相机加个「散焦地图」——DDM HEIC扩展

我们给消费级/工业级相机设计了一套完全兼容HEIC/HEIF标准的扩展：散焦方向图（Defocus Direction Map, DDM），把相机用完就丢的对焦信息，标准化地存进图片里。

2.1 什么是DDM？

DDM是一张和主图像像素完全对齐的单通道8位图，每个像素都编码了拍摄瞬间这个位置的物理对焦状态，编码规则如下：

数值范围	物理含义
0	合焦（在镜头校准的弥散圆范围内，清晰）
1–127	前焦（焦平面在传感器前方，数值越大，跑焦越严重）
128	不确定/低置信度（无法可靠判断对焦状态）
129–255	后焦（焦平面在传感器后方，数值越大，跑焦越严重）

2.2 零硬件改动，就能生成DDM

你不用换相机，现在绝大多数手机、工业相机里都有的相位检测自动对焦（PDAF，双像素/四像素传感器），就能直接生成DDM：我们只需要通过校准后的镜头模型，把每个像素的相位差，映射成物理散焦距离，再量化到上面的8位区间里，全程只有极小的计算开销，拍摄时就能同步生成。

2.3 100%兼容现有HEIC生态

我们给HEIC/HEIF格式（ISO/IEC 23008-12标准）新增了一个4CC编码为focu的标准数据块，里面存压缩后的DDM，以及镜头位置、焦距、光圈、对焦状态等校准元数据。

老的看图软件、修图工具、系统相册，不认识这个focu块会直接忽略，图片的打开、编辑、分享完全不受影响；
支持的AI工具、机器人系统，则可以直接读取DDM作为原生输入，不用做任何格式转换。

2.4 直接能用的3个核心场景

机器人毫秒级闭环对焦：机器人可以把目标区域的DDM平均值，直接作为PID控制的误差信号，不用深度传感器、不用图像推理，就能实现毫秒级的精准对焦，延迟比传统方案低两个数量级；
无分辨率损失的后期重对焦：和牺牲原生分辨率的光场相机不同，DDM可以靠存储的散焦方向和程度，引导去模糊核，实现拍完再对焦，完全不损失图片的原生分辨率；
更鲁棒的视觉模型训练：把DDM作为辅助输入，模型能明确区分「散焦模糊」「运动模糊」和「低纹理本身」，大幅提升真实世界部署的抗干扰能力。

2.5 和现有技术的区别

技术方案	核心优势	核心局限
我们的DDM	零硬件改动、极小存储开销、100%兼容现有生态、直接输出物理控制信号	仅保留对焦相关的物理信息，不做全光场采集
光场相机	可采集全4D光场，后期编辑空间大	牺牲原生空间分辨率、需专用硬件、成本高、生态兼容性差
事件相机	异步输出、超低延迟、高动态范围	需专用硬件、完全不兼容现有帧式视觉 pipeline、开发成本高

DDM正好卡在「实用性」和「功能性」的平衡点：不用改现有硬件和生态，就能给具身AI补上最关键的主动视觉信号。

三、方案2：给CT数据建个「分层档案库」——AI原生的HDF5格式

针对医疗CT，我们设计了一套基于HDF5的分层式数据格式，它不是要替代DICOM，而是作为DICOM的AI专用补充，完整保留CT扫描的全链路物理信息，同时完全兼容临床工作流和监管要求。

3.1 核心理念：全链路分层存储，按需取用

我们把一次CT扫描的所有数据，按语义分成了7个标准化层级，从原始采集数据、重建参数，到临床图像、物理信息、不确定性，全部结构化存储，完整保留了从X射线发射到生成临床图像的全物理链路。

完整的层级结构如下：

/[DICOM检查唯一ID]/
├── /raw/  # 原始采集层，CT的「原始底片」
│   ├── projections          [角度 × 探测器通道 × 能谱仓] float32 原始投影正弦图
│   ├── calibration_air      [探测器通道 × 能谱仓] float32 空气校准数据
│   ├── calibration_water    [探测器通道 × 能谱仓] float32 水模校准数据
│   └── detector_gain_map    [探测器通道 × 能谱仓] float32 探测器增益校准
├── /reconstruction/  # 重建参数层，告诉AI这张图是怎么来的
│   ├── kernel_type          string 重建卷积核（如"B30f", "I70s"）
│   ├── fbp_filtered_sinogram [角度 × 探测器通道] float32 滤波反投影正弦图
│   ├── reconstruction_method string 重建方法（FBP/迭代重建）
│   └── iteration_parameters struct 迭代重建参数
├── /image/  # 临床图像层，和DICOM完全对应，给医生看的标准图像
│   ├── hu                   [层数 × 高度 × 宽度] int16 标准HU图像
│   ├── dose_ctdivol         float32 容积CT剂量指数
│   └── slice_timing         [层数] float32 每层扫描时间
├── /physical_material/  # 物质分解层，能谱CT的核心物理信息
│   ├── electron_density     [层数 × 高度 × 宽度] float32 电子密度
│   ├── iodine_concentration [层数 × 高度 × 宽度] float32 碘浓度
│   └── calcium_mass_fraction [层数 × 高度 × 宽度] float32 钙质量分数
├── /uncertainty/  # 不确定性层，告诉AI哪里的信息不可靠
│   ├── per_pixel_noise_variance [层数 × 高度 × 宽度] float32 逐像素噪声方差
│   ├── metal_artifact_probability [层数 × 高度 × 宽度] float32 金属伪影概率
│   └── respiratory_motion_metric [层数] float32 呼吸运动模糊指标
└── /metadata/  # 元数据层，全链路溯源与合规
    ├── scanner_manufacturer string 设备厂商
    ├── scanner_model        string 设备型号
    ├── kvp                  uint16 管电压
    ├── tube_current_modulation [扫描时间] float32 管电流调制记录
    ├── respiratory_phase    [层数] uint8 呼吸相位
    └── linked_dicom_uids    struct 绑定的DICOM唯一ID，全链路溯源

3.2 解决医疗AI的4个核心痛点

根治泛化性难题：保留了原始投影数据和校准参数，AI可以直接学习病灶的物理特征，而不是特定厂商的重建风格，真正实现跨设备、跨医院的泛化；
原生支持不确定性量化：逐像素的噪声、伪影概率，让AI能自动区分「可靠信息」和「干扰信息」，大幅提升临床安全性，也满足监管对AI可解释性的要求；
标准化多能谱信息：把能谱CT的物质分解数据做成标准化层，不用再存成零散的非标准序列，为大规模能谱CT AI训练铺平了道路；
完全兼容临床与监管：临床工作流继续用DICOM不变，HDF5文件通过唯一DICOM ID和原始检查绑定，实现全链路可溯源，完全符合FDA、CE对医疗数据的监管要求，也兼容DICOM的去标识化标准，可合规用于公开数据集。

同时，HDF5原生支持分块压缩和按需读取，AI训练时可以只加载需要的层（比如只加载HU图像做推理，只加载原始投影做重建算法开发），不用把几个G的全量文件全部加载进内存，兼顾了存储效率和使用便捷性。

四、AI-Ready数据格式的通用原则

上面两个方案，不是针对单个场景的补丁，而是遵循了一套可复制、可推广到所有传感器的通用设计原则，不管是高光谱成像、激光雷达、超声，都可以用这套逻辑重新设计数据格式：

核心原则	具身视觉DDM方案	医疗CT分层HDF5方案
保留完整的物理传感链路	存储PDAF硬件生成的校准散焦信息	保留原始投影、校准数据、剂量记录等全采集链路信息
原生明确的不确定性量化	128值专门标记低置信度区域	标准化层存储逐像素噪声、伪影概率
100%向后兼容	可选`focu`块被老解码器自动忽略	完全兼容DICOM临床工作流，不改动现有流程
机器原生，人类兼容	DDM作为AI的原生控制信号，不影响人类看图	分层结构适配AI的按需读取，同时保留标准临床图像给医生
开放非私有规范	公开ISO兼容的`focu`块定义	公开社区治理的HDF5 schema

五、？！现在立刻！？

这件事不是未来的需求，而是已经迫在眉睫的行业瓶颈，两个核心趋势让这个话题必须被提上日程：

第一，具身AI的爆发，已经不能再靠静态图片训练了。现在的多模态大模型都在往机器人、自动驾驶落地，AI需要从「看懂图片」变成「和物理世界交互」，但我们的训练数据集，还是ImageNet时代的静态、人类中心化图片，没有任何物理交互的信息，根本练不出真正可靠的具身智能。

第二，医疗AI的监管红线，已经卡死了数据溯源的要求。FDA已经批准了超过500个医疗AI设备，但绝大多数都无法大规模推广，泛化性差是核心障碍。2024年FDA更新的AI/ML行动计划，明确要求医疗AI必须全链路可溯源、可重复，只有保留完整的物理传感数据，才能满足这个要求，让医疗AI真正走进临床。

六、落地的障碍，和我们的行动呼吁

我们承认，推动数据格式的标准化，一定会遇到三个核心障碍，但我们的方案已经给出了对应的解决路径：

标准惯性：DICOM、HEIC已经嵌入行业几十年，改动难度大——我们的方案是做向后兼容的扩展，不用推翻现有标准，老系统照常使用，新系统逐步支持；
存储开销：原始CT数据比重建图大10-100倍——现在企业级存储成本持续下降，绝大多数三甲医院、设备厂商本来就会长期存储原始数据用于科研和监管，HDF5的压缩和按需读取也能大幅降低使用成本；
隐私合规：原始数据可能包含更多患者标识信息——我们的格式完全兼容DICOM的标准化去标识化规范，可合规完成匿名化，同时保留溯源能力。

在此，我们向全行业发出具体的行动呼吁：