别再用「给人看的图片格式」喂AI了——我们需要真正AI原生的数据标准
当前的图片格式(JPEG、HEIC)和医学影像格式(DICOM)都是为人眼设计的。但未来的AI——尤其是具身智能和医疗AI——需要的是“机器优先”的数据格式。这篇博客提出两个具体方案:仿生相机的离焦方向图(DDM)和CT的分层HDF5格式。
面向具身视觉与医学影像的分层式AI-Ready数据格式设计
当前的图片格式(JPEG、HEIC)和医学影像格式(DICOM)都是为人眼设计的。但未来的AI——尤其是具身智能和医疗AI——需要的是“机器优先”的数据格式。这篇博客提出两个具体方案:仿生相机的离焦方向图(DDM)和CT的分层HDF5格式。
本文适合:计算机视觉/具身AI研究者、机器人工程师、医学影像AI从业者、数据标准制定者、影像设备硬件工程师,以及所有关注AI底层基础设施的从业者
发布时间:2026.03.25
预印本占位:后续可能发布
开源资源:(希望会有
开篇导语
过去十年,我们见证了AI视觉从ImageNet分类到多模态大模型的飞跃,从实验室的图像识别走到了机器人、自动驾驶、临床诊断的真实世界。但很少有人注意到一个核心的底层矛盾:我们喂给这些AI系统的视觉数据,从根上就是为人类设计的,先天不适合机器理解。
JPEG、HEIC、PNG,还有医疗领域的全球标准DICOM,这些我们用了几十年的格式,从设计之初就只有两个目标:「人能看清、存得够小」。它们会毫不犹豫地丢掉人眼不关心、但AI理解物理世界必须的核心信息——比如相机的对焦状态、CT的原始扫描数据、每个像素的可信度。
这篇文章里,我们会论证:下一代具身AI和医疗AI的核心瓶颈,往往不是模型不够大,而是底层数据格式的先天不足。我们会给出两个可直接落地、100%向后兼容的AI-Ready数据格式方案,同时发出行业倡议:是时候为AI重新设计视觉数据的底层标准了。
一、为什么现有格式正在拖垮AI的发展?
现有视觉数据格式的核心矛盾,是「人类优先,机器将就」的设计逻辑,在两个安全关键的AI领域,已经变成了无法回避的瓶颈。
1.1 具身AI:只给一张静态图,机器人根本没法和世界交互
人类的视觉从来不是被动拍照,而是主动的闭环系统:我们的眼睛会通过睫状肌不停调整焦距,靠「焦平面在物体前面还是后面」的信号,毫秒级修正视线,快速锁定目标。
但现在的相机,哪怕是手机、工业机器人上的高端设备,都是「用完就丢」:自动对焦用的相位检测数据,算完最终的清晰图片就直接扔掉,输出给AI的只有一张静态2D图。这给具身AI带来了致命的问题:
- 机器人看到模糊的物体,分不清是「跑焦了」还是「物体本身就是磨砂/低纹理的」;
- 想做闭环对焦,只能额外加深度传感器,或者靠算力堆耗时的焦点堆叠,延迟和成本双双飙升;
- 训练数据集全是静态图片,根本没有「主动调整焦距」的物理交互信息,练不出真正能适应动态环境的模型。
1.2 医疗AI:只给医生看的重建图,AI永远跨不过医院的门槛
CT是现代医学的核心影像工具,一次扫描会生成全链路的物理数据:原始投影数据(正弦图)、探测器校准参数、剂量调节记录、能谱物质分解信息……但全球通用的DICOM标准,只存最终给医生看的、重建后的亨氏单位(HU)图像,其他数据要么丢了,要么锁在厂商的私有格式里。
这正是医疗AI「出不了单中心」的核心原因:
- 一个在本院西门子CT上准确率99%的肺结节检测模型,换到隔壁医院的GE CT上,准确率可能直接掉到70%——因为不同厂商的重建算法、卷积核完全不一样,AI学到的是「这个厂商的图像特征」,而不是「病灶本身的物理特征」;
- 没有原生的不确定性信息,AI会把金属伪影、运动模糊的像素,和正常组织的像素同等对待,带来临床安全风险;
- 双能/能谱CT的碘、钙浓度等关键信息,没有标准的存储方式,根本没法用来做大规模的AI训练。
我们的核心理念:机器原生,人类兼容
解决这个矛盾,不是要推翻用了几十年的现有格式,更不是让临床医生、普通用户改变使用习惯。我们要做的,是在不影响人类使用的前提下,给格式加一层结构化的、AI原生的物理信息层——老软件、老设备可以完全忽略这些扩展,照常使用;AI系统则能拿到理解物理世界必须的完整数据。
二、方案1:给主动视觉相机加个「散焦地图」——DDM HEIC扩展
我们给消费级/工业级相机设计了一套完全兼容HEIC/HEIF标准的扩展:散焦方向图(Defocus Direction Map, DDM),把相机用完就丢的对焦信息,标准化地存进图片里。
2.1 什么是DDM?
DDM是一张和主图像像素完全对齐的单通道8位图,每个像素都编码了拍摄瞬间这个位置的物理对焦状态,编码规则如下:
| 数值范围 | 物理含义 |
|---|---|
| 0 | 合焦(在镜头校准的弥散圆范围内,清晰) |
| 1–127 | 前焦(焦平面在传感器前方,数值越大,跑焦越严重) |
| 128 | 不确定/低置信度(无法可靠判断对焦状态) |
| 129–255 | 后焦(焦平面在传感器后方,数值越大,跑焦越严重) |
2.2 零硬件改动,就能生成DDM
你不用换相机,现在绝大多数手机、工业相机里都有的相位检测自动对焦(PDAF,双像素/四像素传感器),就能直接生成DDM:我们只需要通过校准后的镜头模型,把每个像素的相位差,映射成物理散焦距离,再量化到上面的8位区间里,全程只有极小的计算开销,拍摄时就能同步生成。
2.3 100%兼容现有HEIC生态
我们给HEIC/HEIF格式(ISO/IEC 23008-12标准)新增了一个4CC编码为focu的标准数据块,里面存压缩后的DDM,以及镜头位置、焦距、光圈、对焦状态等校准元数据。
- 老的看图软件、修图工具、系统相册,不认识这个
focu块会直接忽略,图片的打开、编辑、分享完全不受影响; - 支持的AI工具、机器人系统,则可以直接读取DDM作为原生输入,不用做任何格式转换。
2.4 直接能用的3个核心场景
- 机器人毫秒级闭环对焦:机器人可以把目标区域的DDM平均值,直接作为PID控制的误差信号,不用深度传感器、不用图像推理,就能实现毫秒级的精准对焦,延迟比传统方案低两个数量级;
- 无分辨率损失的后期重对焦:和牺牲原生分辨率的光场相机不同,DDM可以靠存储的散焦方向和程度,引导去模糊核,实现拍完再对焦,完全不损失图片的原生分辨率;
- 更鲁棒的视觉模型训练:把DDM作为辅助输入,模型能明确区分「散焦模糊」「运动模糊」和「低纹理本身」,大幅提升真实世界部署的抗干扰能力。
2.5 和现有技术的区别
| 技术方案 | 核心优势 | 核心局限 |
|---|---|---|
| 我们的DDM | 零硬件改动、极小存储开销、100%兼容现有生态、直接输出物理控制信号 | 仅保留对焦相关的物理信息,不做全光场采集 |
| 光场相机 | 可采集全4D光场,后期编辑空间大 | 牺牲原生空间分辨率、需专用硬件、成本高、生态兼容性差 |
| 事件相机 | 异步输出、超低延迟、高动态范围 | 需专用硬件、完全不兼容现有帧式视觉 pipeline、开发成本高 |
DDM正好卡在「实用性」和「功能性」的平衡点:不用改现有硬件和生态,就能给具身AI补上最关键的主动视觉信号。
三、方案2:给CT数据建个「分层档案库」——AI原生的HDF5格式
针对医疗CT,我们设计了一套基于HDF5的分层式数据格式,它不是要替代DICOM,而是作为DICOM的AI专用补充,完整保留CT扫描的全链路物理信息,同时完全兼容临床工作流和监管要求。
3.1 核心理念:全链路分层存储,按需取用
我们把一次CT扫描的所有数据,按语义分成了7个标准化层级,从原始采集数据、重建参数,到临床图像、物理信息、不确定性,全部结构化存储,完整保留了从X射线发射到生成临床图像的全物理链路。
完整的层级结构如下:
/[DICOM检查唯一ID]/
├── /raw/ # 原始采集层,CT的「原始底片」
│ ├── projections [角度 × 探测器通道 × 能谱仓] float32 原始投影正弦图
│ ├── calibration_air [探测器通道 × 能谱仓] float32 空气校准数据
│ ├── calibration_water [探测器通道 × 能谱仓] float32 水模校准数据
│ └── detector_gain_map [探测器通道 × 能谱仓] float32 探测器增益校准
├── /reconstruction/ # 重建参数层,告诉AI这张图是怎么来的
│ ├── kernel_type string 重建卷积核(如"B30f", "I70s")
│ ├── fbp_filtered_sinogram [角度 × 探测器通道] float32 滤波反投影正弦图
│ ├── reconstruction_method string 重建方法(FBP/迭代重建)
│ └── iteration_parameters struct 迭代重建参数
├── /image/ # 临床图像层,和DICOM完全对应,给医生看的标准图像
│ ├── hu [层数 × 高度 × 宽度] int16 标准HU图像
│ ├── dose_ctdivol float32 容积CT剂量指数
│ └── slice_timing [层数] float32 每层扫描时间
├── /physical_material/ # 物质分解层,能谱CT的核心物理信息
│ ├── electron_density [层数 × 高度 × 宽度] float32 电子密度
│ ├── iodine_concentration [层数 × 高度 × 宽度] float32 碘浓度
│ └── calcium_mass_fraction [层数 × 高度 × 宽度] float32 钙质量分数
├── /uncertainty/ # 不确定性层,告诉AI哪里的信息不可靠
│ ├── per_pixel_noise_variance [层数 × 高度 × 宽度] float32 逐像素噪声方差
│ ├── metal_artifact_probability [层数 × 高度 × 宽度] float32 金属伪影概率
│ └── respiratory_motion_metric [层数] float32 呼吸运动模糊指标
└── /metadata/ # 元数据层,全链路溯源与合规
├── scanner_manufacturer string 设备厂商
├── scanner_model string 设备型号
├── kvp uint16 管电压
├── tube_current_modulation [扫描时间] float32 管电流调制记录
├── respiratory_phase [层数] uint8 呼吸相位
└── linked_dicom_uids struct 绑定的DICOM唯一ID,全链路溯源
3.2 解决医疗AI的4个核心痛点
- 根治泛化性难题:保留了原始投影数据和校准参数,AI可以直接学习病灶的物理特征,而不是特定厂商的重建风格,真正实现跨设备、跨医院的泛化;
- 原生支持不确定性量化:逐像素的噪声、伪影概率,让AI能自动区分「可靠信息」和「干扰信息」,大幅提升临床安全性,也满足监管对AI可解释性的要求;
- 标准化多能谱信息:把能谱CT的物质分解数据做成标准化层,不用再存成零散的非标准序列,为大规模能谱CT AI训练铺平了道路;
- 完全兼容临床与监管:临床工作流继续用DICOM不变,HDF5文件通过唯一DICOM ID和原始检查绑定,实现全链路可溯源,完全符合FDA、CE对医疗数据的监管要求,也兼容DICOM的去标识化标准,可合规用于公开数据集。
同时,HDF5原生支持分块压缩和按需读取,AI训练时可以只加载需要的层(比如只加载HU图像做推理,只加载原始投影做重建算法开发),不用把几个G的全量文件全部加载进内存,兼顾了存储效率和使用便捷性。
四、AI-Ready数据格式的通用原则
上面两个方案,不是针对单个场景的补丁,而是遵循了一套可复制、可推广到所有传感器的通用设计原则,不管是高光谱成像、激光雷达、超声,都可以用这套逻辑重新设计数据格式:
| 核心原则 | 具身视觉DDM方案 | 医疗CT分层HDF5方案 |
|---|---|---|
| 保留完整的物理传感链路 | 存储PDAF硬件生成的校准散焦信息 | 保留原始投影、校准数据、剂量记录等全采集链路信息 |
| 原生明确的不确定性量化 | 128值专门标记低置信度区域 | 标准化层存储逐像素噪声、伪影概率 |
| 100%向后兼容 | 可选focu块被老解码器自动忽略 |
完全兼容DICOM临床工作流,不改动现有流程 |
| 机器原生,人类兼容 | DDM作为AI的原生控制信号,不影响人类看图 | 分层结构适配AI的按需读取,同时保留标准临床图像给医生 |
| 开放非私有规范 | 公开ISO兼容的focu块定义 |
公开社区治理的HDF5 schema |
五、?!现在立刻!?
这件事不是未来的需求,而是已经迫在眉睫的行业瓶颈,两个核心趋势让这个话题必须被提上日程:
第一,具身AI的爆发,已经不能再靠静态图片训练了。现在的多模态大模型都在往机器人、自动驾驶落地,AI需要从「看懂图片」变成「和物理世界交互」,但我们的训练数据集,还是ImageNet时代的静态、人类中心化图片,没有任何物理交互的信息,根本练不出真正可靠的具身智能。
第二,医疗AI的监管红线,已经卡死了数据溯源的要求。FDA已经批准了超过500个医疗AI设备,但绝大多数都无法大规模推广,泛化性差是核心障碍。2024年FDA更新的AI/ML行动计划,明确要求医疗AI必须全链路可溯源、可重复,只有保留完整的物理传感数据,才能满足这个要求,让医疗AI真正走进临床。
六、落地的障碍,和我们的行动呼吁
我们承认,推动数据格式的标准化,一定会遇到三个核心障碍,但我们的方案已经给出了对应的解决路径:
- 标准惯性:DICOM、HEIC已经嵌入行业几十年,改动难度大——我们的方案是做向后兼容的扩展,不用推翻现有标准,老系统照常使用,新系统逐步支持;
- 存储开销:原始CT数据比重建图大10-100倍——现在企业级存储成本持续下降,绝大多数三甲医院、设备厂商本来就会长期存储原始数据用于科研和监管,HDF5的压缩和按需读取也能大幅降低使用成本;
- 隐私合规:原始数据可能包含更多患者标识信息——我们的格式完全兼容DICOM的标准化去标识化规范,可合规完成匿名化,同时保留溯源能力。
在此,我们向全行业发出具体的行动呼吁:
- 给标准组织:IEEE、ISO/IEC、DICOM AI工作组,尽快成立AI-Ready数据格式的专项工作组,推动标准化立项;
- 给硬件厂商:相机、CT设备厂商,开放原始传感器数据的公开API,不要把核心物理数据锁在私有格式里;
- 给开源社区:一起开发格式转换工具、主流深度学习框架的适配库,降低行业使用门槛;
- 给数据集维护者:给公开的计算机视觉、医学影像数据集,补充AI原生的物理信息层,为行业提供高质量的训练数据。
我们也给出了分阶段的落地路线图:
- 短期(0-12个月):开源完整的schema、格式转换工具、示例数据集,收集社区反馈,迭代优化规范;
- 中期(1-3年):推动HEIC
focu块的ISO标准化立项,成立CT HDF5规范的社区治理工作组,推动主流公开数据集采用; - 长期(3-5年):实现行业规模化采用,相机、CT设备原生支持AI-Ready格式输出,成为下一代AI系统的底层基础设施。
结尾
我们总说AI是第四次工业革命,但我们给AI用的基础设施,还是胶片摄影时代的标准。
这篇文章不是要给出一个最终的、完美的规范,只是想抛砖引玉,让整个行业意识到:数据格式不是无关紧要的「细节」,而是决定AI能不能真正走进物理世界、走进临床的核心基础设施。
我们邀请所有的研究者、工程师、厂商、标准制定者,一起参与进来,为下一代AI,打造真正原生的、开放的、可靠的数据标准。
附录
- 关于本文:本文先以博客形式发布,后续可能发布到预印本平台。本文无实验验证,核心贡献为概念框架、可落地的技术方案与标准化倡议。
- 交流方式:如果你对这个方案有想法、建议,或者想一起参与标准化工作,欢迎在评论区留言,或通过邮箱2417292055@qq.com联系我!!
更多推荐




所有评论(0)