RS-WorldModel: a Unified Model for RemoteSensing Understanding and Future SenseForecasting
Abstract遥感世界模型旨在同时解释已观测到的变化并预测合理的未来场景这两个任务共享时空先验。然而现有方法通常将二者分开处理限制了跨任务迁移能力。本文提出RS-WorldModel这是一个面向遥感的统一世界模型能够同时处理时空变化理解和文本引导的未来场景预测两个任务。同时本文构建了RSWBench-1.1M这是一个包含 110 万样本的数据集具有丰富的语言标注覆盖上述两类任务。RS-WorldModel 的训练分为三个阶段Geo-Aware Generative Pre-trainingGAGP地理感知生成式预训练利用地理信息和成像采集元数据作为条件引导未来场景预测Synergistic Instruction TuningSIT协同指令微调联合训练变化理解和未来预测两个任务Verifiable Reinforcement OptimizationVRO可验证强化优化通过可验证的、任务特定的奖励对输出进行进一步优化。尽管 RS-WorldModel 仅有2B 参数但它在大多数时空变化问答指标上超过了参数规模最高达其120 倍的开源模型。在文本引导的未来场景预测任务中它取得了43.13 的 FID优于所有开源基线模型以及闭源的 Gemini-2.5-Flash ImageNano Banana。1 Introduction世界模型通过构建环境的内部表征并预测其未来动态已经成为自动驾驶、机器人和生成式仿真等应用领域中的活跃研究方向 [17]。在自动驾驶领域GAIA-1 [20] 和 Drive-WM [47] 能够在给定规划动作和地图上下文的条件下预测驾驶场景。Sora [7] 等视频生成系统表明大规模生成模型可以作为通用的物理模拟器。在具身智能领域DayDreamer [52] 主要在学习到的世界模型中训练机器人运动和操作策略而 Cosmos [1] 则提出了一种基于大规模视频数据训练的通用世界基础模型。这些研究共同指向一个核心认识学习预测未来状态能够促使模型内化环境动态规律因此世界模型被认为是迈向通用自主智能体的一条有前景的路径。地球观测领域同样有望从中显著受益因为卫星会随时间反复拍摄同一地点然而这一方向目前仍然尚未得到充分探索见图 1。近期的遥感生成模型 [62,23] 已经能够合成较为真实的卫星影像但它们通常局限于像素级图像合成而缺乏对“发生了什么变化”以及“为什么发生变化”的推理能力。相反面向理解的模型 [26,21,60] 能够解释已观测到的场景但并不是为未来状态或反事实状态预测而设计的。在许多遥感应用场景中往往同时需要准确的场景解释和可控的未来预测[6,44,33]。这两个任务都依赖于来自地理环境和成像采集背景的共享先验信息例如地理位置、季节性变化以及传感器特性。然而将二者分开训练无法充分利用这种共享结构导致生成任务难以控制同时也使理解任务无法受益于密集的生成式监督信号 [59,24]。构建一个统一的遥感世界模型面临三个核心挑战。首先据我们所知目前尚没有现有数据集能够在大规模层面同时支持时空变化理解和未来场景预测大多数基准数据集 [10,38,11] 只针对单一任务并且缺乏位置感知建模所需的丰富地理元数据。第二遥感影像具有复杂的时空变化特征这些变化受到地理位置、传感器参数和季节周期等因素的共同驱动。因此仅依靠有限数据很难学习到有效的生成先验 [56,45,13]。现有方法通常将理解任务和生成任务分开训练 [64,34]从而限制了二者之间的知识迁移。第三标准的基于人类反馈的强化学习方法通常依赖学习得到的偏好模型但这类偏好模型难以捕捉遥感领域特有的地理一致性和物理合理性约束 [24]。我们通过RS-WorldModel和RSWBench-1.1M来应对上述挑战。在数据方面我们构建了RSWBench-1.1M这是一个包含110 万个高分辨率样本的大规模数据集覆盖时空变化理解和文本引导的未来场景预测两类任务。该数据集包含细粒度的地理元数据并基于 fMoW [11] 构建以确保全球范围内的场景多样性。在模型方面我们提出了RS-WorldModel这是首个面向遥感领域的统一世界模型。该模型通过三个阶段进行训练Geo-Aware Generative Pre-trainingGAGP地理感知生成式预训练引入地理条件信息以建立时空预测先验Synergistic Instruction TuningSIT协同指令微调联合优化理解任务和生成任务从而提高模型的可控性并使两个任务相互增强Verifiable Reinforcement OptimizationVRO可验证强化优化不依赖学习得到的偏好模型而是利用任务特定的可验证奖励来优化输出从而提高模型鲁棒性。实验结果表明尽管 RS-WorldModel 仅有2B 参数但它在大多数时空变化问答指标上超过了规模最高达其120 倍的开源模型同时在文本引导的未来场景预测任务中取得了43.13 的 FID在 FID 指标上优于所有开源基线模型以及闭源的 Gemini-2.5-Flash Image。本文的主要贡献如下我们提出了RS-WorldModel这是首个面向遥感领域的统一世界模型能够同时处理时空变化理解和文本引导的未来场景预测任务我们构建了RSWBench-1.1M这是一个包含 110 万样本的大规模数据集覆盖上述两类任务并具有丰富的地理元数据和细粒度语言标注我们设计了一种三阶段训练范式即GAGP、SIT 和 VRO使一个仅有 2B 参数的模型能够超过规模大得多的开源模型以及若干闭源模型。2 RSWBench-1.1M Dataset训练一个统一的遥感世界模型需要能够支撑两项核心能力的数据时空变化问答Spatiotemporal Change Question-Answering, ST-CQA和文本引导的未来场景预测Text-Guided Future Scene Forecasting, TFSF。为此我们提出了一套可扩展的自动化标注流程并构建了一个数据集套件其中包括110 万样本的训练语料库和5.6K 样本的评估基准。二者均来源于fMoW数据档案并严格遵循官方数据划分协议以防止数据泄漏见图 2。2.1 Scalable Data Construction Pipeline构建一个百万级、且具有时空一致性的数据集需要克服两个挑战大气噪声和缺乏密集语义标注。为此我们采用一个两阶段流程将物理筛选与语义精炼统一起来。阶段 1物理标准化。我们首先将来自相同地理坐标的多时相观测数据进行配对。为了确保模型学习的是有效的地表特征而不是成像伪影我们对采集元数据进行标准化处理例如太阳角度并根据可见性对样本进行筛选。具体而言我们使用 OmniCloudMask [50] 估计图像 I 的逐像素云覆盖比例阶段 2语义精炼。为了在不依赖昂贵人工标注的情况下合成高质量语言监督信号我们采用一种“生成—精炼”策略。首先视觉语言模型根据图像对和元数据生成结构化的 JSON 标注草稿。随后一个更大、更强的模型即 Qwen2.5-72B-Instruct对这些草稿进行进一步精炼。其中一个关键设计是元数据语言化转换该流程会显式地将原始数值型传感器数据转换为自然语言线索。例如将太阳高度角转换为对阴影变化的描述。这样可以避免模型过度拟合具体数值而是学习更具语义意义和可泛化性的地理与成像条件。2.2 RSWBench-1.1M Dataset Suite利用上述流程我们构建了两个不同的子集用于支持遥感世界模型的训练与评估见表 1。训练集。训练语料完全来自 fMoW 的训练划分包含约110 万个样本。其中包括37.1 万个生成式预训练样本以及74.2 万个用于协同指令微调的混合样本。此外还保留了一个1.6 万样本的子集用于强化对齐训练。评估集。为了建立严格的评估标准我们完全从 fMoW 的测试划分中构建了6.6K 个样本。该基准数据集保持任务均衡其中包含5K 个 ST-CQA 样本和1.6K 个 TFSF 样本。通过保留原始测试集的全球多样性RSWBench-1.1M 能够稳定评估模型的跨区域泛化能力和未来场景预测保真度。3 Method3.1 Preliminary设 I 表示一幅遥感图像m 表示与其相关的地理空间元数据例如坐标、地面采样距离、时间戳、太阳角度和云量统计等。我们将时空变化问答Spatiotemporal Change Question-Answering, ST-CQA和文本引导的未来场景预测Text-Guided Future Scene Forecasting, TFSF都形式化为指令条件下的序列生成任务。给定一个包含图像占位符image的提示词 P以及对应的元数据 m模型的目标是建模输出序列 y 的条件概率其中θ表示模型参数。对于ST-CQA输出 y 由自然语言 token 组成也就是模型生成文字回答对于TFSF输出 y 由离散视觉 token 组成也就是模型生成未来遥感图像对应的视觉表示。统一 token 化与训练目标。任务特定提示词。模型接收文本提示词这些提示词将视觉观测、地理空间元数据和任务相关语言结合在一起。3.2 RS-WorldModel: A Unified World Model for Remote SensingRS-WorldModel是一种统一的世界模型旨在从卫星影像中感知、理解并预测地球表面的时空动态变化。不同于主要在自然场景上训练的传统视觉语言模型RS-WorldModel 在一个统一的自回归框架中显式编码了支配遥感观测的物理规则包括太阳角度、大气条件、土地覆盖演化以及成像时间变化等因素。RS-WorldModel 基于Qwen3-VL-2B-Instruct构建参数量仅为2B。该模型将卫星图像编码为视觉 token并与地理空间元数据进行融合然后以自回归方式生成混合模态输出对于ST-CQA任务模型输出自然语言回答对于未来场景预测任务模型输出离散视觉 token。通过将“理解”和“预测”都视为共享潜在空间中的同一种next-token prediction任务RS-WorldModel 在感知与模拟之间建立了双向联系。这种统一建模方式将遥感感知与场景模拟连接起来有助于推动遥感智能的发展。3.3 Learning Remote Sensing World Dynamics为了注入稳健的物理先验和语义先验RS-WorldModel 通过三个互补目标进行训练Geo-Aware Generative Pre-trainingGAGP地理感知生成式预训练利用地理信息和成像采集元数据作为条件引导未来场景预测Synergistic Instruction TuningSIT协同指令微调联合训练理解任务和预测任务Verifiable Reinforcement OptimizationVRO可验证强化优化通过可验证的、任务特定的奖励进一步优化模型输出。这些训练目标从低层次的物理模拟到高层次的任务对齐逐步构建模型的世界建模能力如图 3 所示。Geo-Aware Generative Pre-trainingGAGP地理感知生成式预训练协同指令微调Synergistic Instruction Tuning, SIT可验证强化优化Verifiable Reinforcement Optimization, VROVRO 使用Group Relative Policy OptimizationGRPO对经过 SIT 训练后的策略进行进一步优化并且不需要额外的价值网络。该优化过程同时作用于两个任务并采用任务特定的奖励信号。这些奖励直接来自参考信号和提示词元数据例如在 TFSF 任务中使用余弦相似度在 ST-CQA 任务中使用 LLM 裁判而不是依赖学习得到的奖励模型。这样可以尽量减少奖励欺骗并确保更可靠的对齐效果。4 Experiments4.1 Experimental Setups评估基准。我们在两个任务上评估 RS-WorldModel。时空变化问答Spatiotemporal Change Question-Answering, ST-CQA用于衡量模型描述双时相遥感变化的能力。我们在5K 子集上报告 GPT-Score、BLEU-1、METEOR、ROUGE-L、S-BERT、SimCSE、ST5-SCS 以及平均回答长度等指标见表 2。文本引导的未来场景预测Text-Guided Future Scene Forecasting, TFSF用于衡量模型能否根据文本指令和地理背景合成合理的后时相图像。我们在1.6K 子集上报告 FID、CosSim [28]以及四个基于 GPT 的评分指标Similarity、Quality、OA 和 AA见表 3。基线模型。对于 ST-CQA我们与闭源模型进行比较包括 GPT-5.1 [35] 和 Gemini-3-Flash [18]同时也与参数规模从 2B 到 235B 的通用开源视觉语言模型进行比较包括 Qwen-VL 系列 [4]、LLaVA-OV [3] 和 InternVL3.5 [46]此外还比较了两个遥感领域专用模型 EarthDial-RGB [40] 和 TEOChat [22]。对于 TFSF基线模型包括闭源图像生成模型 Gemini-2.5-Flash Image [12]、GPT-Image-1.5 和 GPT-Image-1-mini以及不同生成范式下的开源模型包括基于扩散模型的 CRS-Diff [42]、基于适配器的 SD3.5-Large-IPA [43] 和 FLUX.1-Kontext [27]以及统一模型 BAGEL [16]。实现细节。RS-WorldModel 基于Qwen3-VL-2B-Instruct构建并且在所有训练阶段都冻结视觉编码器和多模态投影器。GAGP 阶段使用371K 个生成样本进行训练SIT 阶段在742K 个生成与理解混合样本上进行微调VRO 阶段则在16K 个生成与理解样本上应用 GRPO并加入 KL 惩罚项同时结合语义一致性和感知质量奖励。所有实验均在8 张 NVIDIA A800 80GB GPU上进行并使用DeepSpeed ZeRO-3和Flash Attention 2。完整的超参数设置见补充材料。4.2 主要结果定量结果我们分别报告两个任务上的实验结果。1理解任务表 2 报告了ST-CQA任务的结果。尽管 RS-WorldModel 仅有2B 参数但它在所有开源基线模型中在BLEU-1、ROUGE-L以及三个上下文语义相似度指标上均排名第一。与同等规模的Qwen3-VL-2B相比RS-WorldModel 的提升十分明显ROUGE-L 提升了 21%S-BERT 提升了 14%。RS-WorldModel 在大多数指标上甚至超过了参数规模大16–120 倍的模型。例如Qwen3-VL-32B 在 ST5-SCS 上得分为84.10而 RS-WorldModel 达到88.32。我们认为这主要得益于三阶段训练流程。首先基于371K 遥感生成样本的领域特定预训练即GAGP将时间推理能力锚定在地理空间上下文中而这种能力是通用现成 VLM 无论规模多大都不具备的。随后SIT联合指令微调将生成侧的空间知识迁移到理解任务中从而提高了描述的完整性。最后强化学习阶段VRO通过基于裁判模型的奖励进一步优化输出并惩罚与元数据不一致的描述。两个遥感领域专用基线模型EarthDial-RGB和TEOChat的 GPT-Score 均低于 40说明现有遥感模型并不是为开放式时间变化描述任务设计的。在闭源模型中GPT-5.1获得了最高的 GPT-Score但其平均回答长度达到817 个 token几乎是 RS-WorldModel 的 4 倍同时其 n-gram 指标和上下文语义相似度指标更低说明它的回答更冗长但描述不够精确。2预测任务表 3 报告了TFSF任务的结果。RS-WorldModel 在所有开源模型中在每一项指标上均排名第一。与CRS-Diff相比其 FID 降低了48%与FLUX.1-Kontext相比FID 降低了47%同时取得了最高的CosSim和 GPT 评分。不同生成范式之间的比较揭示了明显的权衡关系。CRS-Diff是一种基于变化指令条件控制的扩散模型它能够生成感知上较为合理的图像但在 Similarity 指标上得分最低说明其对文本变化描述的遵循能力有限。BAGEL与本文方法类似也是一种统一模型它在 Similarity 指标上表现较有竞争力达到44.25但其 FID 明显更高为78.47说明其生成结果虽然更符合文本但感知质量较弱。相比之下RS-WorldModel 在两个目标之间取得了更好的平衡其自回归建模方式结合基于 VRO 的奖励优化同时通过 (s_{\mathrm{it}}) 鼓励文本忠实性并通过 (s_{\mathrm{ir}}) 提升感知真实感。RS-WorldModel 甚至在 FID 指标上超过了闭源模型Gemini-2.5-Flash Image二者分别为43.13和46.14。GPT-Image-1.5在 Similarity 和 OA 指标上领先但其 FID 几乎是 RS-WorldModel 的两倍说明它具有更强的文本遵循能力但牺牲了感知保真度。定性结果为了定性评估 RS-WorldModel 在理解和预测两个方面的能力我们展示了来自两个核心任务的代表性示例。1理解任务在变化理解场景中图 4给定同一城市区域相隔约三年拍摄的一对高分辨率卫星图像RS-WorldModel 能够准确描述整体布局的一致性同时识别消防站附近细微的地表纹理变化并正确地将阴影长度和方向的差异归因于太阳高度角和成像时间的变化。相比之下一些强基线模型要么忽略了所有变化要么产生了关于重大结构变化的幻觉描述。2预测任务在文本引导的未来场景预测场景中图 5当输入详细描述休闲和商业场景的文本条件时RS-WorldModel 能够生成具有照片真实感的卫星影像并较好地保持网球场布局、停车场配置、植被密度、建筑屋顶、阴影方向和大气光照条件。相比其他扩散模型和自回归模型RS-WorldModel 在结构保真度和物理一致性方面表现更优。4.3 Ablation Study