ICML2025|视觉+文本+时间三buff加持！看看多模态怎么赋能时间序列！

来自ICML2025最新前沿时序技术~一个用于增强时间序列预测的多模态视觉语言模型-Time-VLM。

时序大模型 · 2025-07-14 13:59:17 发布

本篇论文来自ICML2025最新前沿时序技术~作者提供了一个用于增强时间序列预测的多模态视觉语言模型-Time-VLM。

最新ICML2025全部63篇时序相关论文小时已经整理好了，关注工中浩“时序大模型”发送"资料"扫码回复“ICML2025时序合集”即可自取哦~

论文名称：Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting

论文作者：Siru Zhong, Weilin Ruan, Ming Jin, Huan Li, Qingsong Wen, Yuxuan Liang

时间序列预测在金融、气候、能源等多个领域至关重要，但传统模型在捕捉复杂非线性模式、跨域泛化以及数据稀缺场景（如少样本和零样本）中表现不佳。

现有文本增强模型存在模态间隙和时间模式捕捉不足的问题，视觉增强模型则缺乏语义可解释性。为解决这些问题，论文提出 Time-VLM，通过预训练视觉 - 语言模型，融合时间、视觉和文本模态，实现更优预测。

Time-VLM是协同预训练VLMs生成多模态嵌入，再与时间特征融合用于最终预测，包含了三个关键组件：

检索增强学习器（RAL）：

视觉增强学习器（VAL）：

文本增强学习器（TAL）：

作者也进行了多模态的融合与优化：

多模态融合：提取图像和文本的多模态嵌入后，将时间记忆嵌入和多模态嵌入投影到共享空间。采用跨模态多头注意力机制对齐和整合特征，通过门控融合机制动态加权，最后经微调的预测器生成预测结果。

优化：使用均方误差作为损失函数端到端训练，冻结预训练 VLM，仅优化轻量级组件（如 RAL 的补丁嵌入、VAL 的编码层、预测头）。

数据集与基线：在 7 个时间序列数据集（如 ETT、Weather、Electricity 等）上评估，对比文本增强、视觉增强、传统深度学习等多类基线模型。

重点实验结果：

少样本场景：使用 5% 或 10% 训练数据时，Time-VLM 显著优于基线，如在 ETTh1 的 5% 数据上，MSE 较 Time-LLM 降低 29.5%。
零样本场景：跨域预测中表现出色，如 ETTh1→ETTh2 任务，MSE 较 Time-LLM 低 4.2%。
短 / 长期预测：在 M4 基准的短期预测中，SMAPE、MASE、OWA 指标优于基线；长期预测中，在多数数据集上表现竞争力。
效率：仅 143M 参数（约为 Time-LLM 的 1/20），内存使用和推理速度更优。