World Model

2025-05-01

Word count: 14.2k | Reading time≈ 53 min

(202411) Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models

参考：https://www.51cto.com/aigc/1434.html

Works of Danijar Hafner

(201912) (ICLR 2020) Dream to Control: Learning Behaviors by Latent Imagination

Dreamer 是一种强化学习（RL）智能体，其核心思想是通过“世界模型”来学习并解决长期任务，特别是从图像等高维感知输入中学习。它学习并压缩环境的高维观察（如图像），构建一个紧凑的潜在空间，与直接在环境中试错不同，Dreamer 在学习过程中通过在潜在状态空间中“想象”未来轨迹来预测后果和训练策略，避免大量真实环境交互，从而显著提升数据效率。

(202005) Planning to Explore via Self-Supervised World Models

(202107) Discovering and Achieving Goals via World Models

(202206) Masked World Models for Visual Control

(202504) Mastering diverse control tasks through world models

(202401) Language-Guided World Models: A Model-Based Approach to AI Control

(202410, Web Agents) (ICLR2025) Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

当前基于 LLM 的网页智能体在执行长程任务时表现仍不理想，常常犯下如重复购买不可退票等不可逆错误。相比之下，人类能够避免此类错误，是因为我们具备对行为后果的预判能力，即“世界模型”（world model）。基于这一观察，本文首先通过实证分析验证了当前主流 LLM（如 GPT-4o、Claude-3.5-Sonnet 等）缺乏内在世界模型的能力。作者通过实验分析，得到以下结论：

当前的大型语言模型（LLMs）无法有效预测其动作所导致的下一状态。这表明，“世界模型”这一能力——即预见所采取动作可能产生的后果——在现有 LLM 中是缺失的。换句话说，虽然 LLMs 擅长语言生成和知识问答，但它们并不具备像人类那样的“因果预判”能力，难以在复杂环境中做出具备长期规划意识的决策。
当前最先进的大型语言模型在仅依赖当前观察状态（即当前界面或页面信息）进行动作选择时表现不佳，平均准确率仅为 49%。然而，当这些模型被增强以获取每个候选动作对应的“下一状态”信息后，它们在动作选择任务上表现出显著提升，准确率最高可提升 38%。这表明，LLMs 在具备预测未来状态（即拥有“世界模型”能力）的情况下，能够做出更合理、前瞻性的决策，从而大幅改善任务表现。

为此，本文提出了一种引入世界模型的增强型 Web 智能体（WMA），该智能体通过模拟动作可能带来的后果，从而做出更优的决策。作者认为，直接训练世界模型去预测下一个完整的观察状态（即整个网页）往往会导致大量重复的元素反复出现，同时 HTML 输入内容冗长，这些都会严重影响模型的性能。为了克服将 LLM 训练为世界模型所面临的挑战——如连续网页状态间的大量重复元素以及 HTML 输入过长等问题，因此研究引入了以状态转变为核心的观察抽象方法。具体而言，模型不再预测完整下一步状态，而是以自然语言的形式仅描述关键的状态变化，从而简化建模目标，增强推理效率。在推理阶段，智能体会利用世界模型模拟策略模型提供的每个候选动作所带来的后果（即下一观察状态的变化描述），接着使用一个价值函数对所有模拟结果进行奖励估计，最终选择预期奖励最高的动作来执行。该方法有效避免了冗余状态建模，提高了世界模型的效率与实用性。

“While some world models are trained with raw observations, others are built on latent representations.”

WORLD-MODEL-AUGMENTED WEB AGENTS

由于 Web Agent 只能访问网页视口中可见的信息（即用户当前看到的区域），因此将网页导航任务建模为部分可观马尔可夫决策过程（POMDP）。具体来说，定义一个 Web 环境 $E$ ，包含以下几个组成部分：

隐藏状态空间 $S$ ：网页的完整状态，包括用户当前看不到的部分；
动作空间 $A$ ：包括语言引导的操作，如点击（CLICK）、输入（TYPE）、悬停（HOVER）等，每个动作都有对应的自然语言描述；
观测空间 $O$ ：由页面的可访问性树构成，是对 DOM 树的一种简化表示。

在这个 POMDP 框架下，Agent 在时刻 $t$ 基于当前的部分观察 $o_t \in O$ 选择一个动作 $a_t \in A$ 。随后，环境 $E$ 会根据真实的（隐藏）状态转移函数 $T: S \times A \rightarrow S$ ，更新内部状态 $s_t \rightarrow s_{t+1}$ ，并向 Agent 返回新的部分观察 $o_{t+1} \in O$ 。

采集 Agent 与环境的交互数据

首先从环境 $E$ 中收集用于训练世界模型的数据集 $D = \sum_{t=1}^{n} \{I, o_t, a_t, o_{t+1}\}$ 。具体步骤如下：

初始化任务指令 $I$ ：该指令由用户提供，描述了需要完成的目标（如填写表单、预订机票等）。
Agent 执行任务：使用大语言模型（LLM）作为 Web Agent，在每一个时间步 $t$ ，基于当前观察 $o_t$ 来预测下一个动作 $a_t$ ，并与网页环境交互。
轨迹记录：通过执行一整个交互过程，形成一个轨迹 $\tau = \{o_1, a_1, o_2, ..., a_n, o_{n+1}\}$ ，即从初始观察出发，在每一步采取动作并获得下一个观察。
记录隐藏状态序列：同时，也记录每一步所处的环境隐藏状态 $\{s_1, ..., s_{n+1}\} \subset S$ ，这些状态是通过真实的状态转移函数 $T$ 获得的。

最终得到了包含用户指令、每一步观察、采取的动作以及环境反馈（下一观察）的训练数据集 $D$ ，可用于训练世界模型。该模型的目标是能够在未来预测动作所带来的状态变化，从而更好地辅助 Agent 进行规划与决策。

面向状态转移的观察抽象（Transition-Focused Observation Abstraction）

在上述步骤中，已收集了数据集 $D = \sum_{t=1}^{n} \{I, o_t, a_t, o_{t+1}\}$ ，直观的做法是训练基于 LLM 的世界模型来预测下一个观察 $o_{t+1}$ ，这些观察一般以文本形式表达（如 HTML 或可访问性树）。但直接使用这种方式作为训练目标存在两个主要问题：

信息增益低：网页中的状态变化往往只是局部的（例如点击了下拉菜单），导致 $o_{t+1}$ 与 $o_t$ 的大部分内容重复。如果强行让模型从头预测整个 $o_{t+1}$ ，会导致模型学习效率低下。
序列过长，计算开销高：即便使用相对简化的可访问性树（替代原始 HTML），单条输入的平均长度仍高达 4,000 个 token，增加了训练成本。如下图所示。

为解决这两个问题，作者通过抽象表达观测值的变化，仅关注“状态转移”的差异部分，以提高训练效率和效果。具体做法如下：

识别状态差异：不采用简单描述，而是通过 匈牙利算法 比较 $o_t$ 和 $o_{t+1}$ 中的元素，生成匹配代价矩阵，从而精准识别新增（ADDED）、删除（DELETED）、更新（UPDATED）等元素变更，构造出状态转移集合 $\Delta(o_t, o_{t+1})$ 。（计算成本很高呀）
转换为自然语言描述：将上述结构化的差异信息 $\Delta(o_t, o_{t+1})$ 输入给一个 LLM，将其转化为自由形式的自然语言文本 $\tilde{o}_{t+1}$ ，该文本专注于描述观察变化的关键信息，而不是完整网页内容。
构建新数据集：用新生成的 $\tilde{o}_{t+1}$ 替换原始数据中的 $o_{t+1}$ ，最终得到更精炼、有效的信息训练集：
$\tilde{D} = \sum_{t=1}^{n} \{I, o_t, a_t, \tilde{o}_{t+1}\}$

这个步骤有效提升了训练效率，避免了冗余信息干扰，并使得模型更专注于学习因动作引起的状态变化，从而更好地模拟世界模型能力。

学习动态环境（Learning Environment Dynamics）

在构建了精炼的数据集 $\tilde{D} = \sum_{t=1}^{n} \{I, o_t, a_t, \tilde{o}_{t+1}\}$ 之后，下一步是训练内部的世界模型 $\phi$ ，使 Web Agent 能够学习环境动态。将一个大语言模型（LLM）作为世界模型，它的任务是预测下一步状态的抽象观察结果 $\tilde{o}_{t+1}$ 。该预测是基于以下三个输入：用户指令 $I$ ；当前观察 $o_t$ ；当前采取的动作 $a_t$ 。训练目标是通过标准的“下一词预测”目标函数最小化损失：

L_{\phi} = - \log \sum_{(\tilde{o}, o, a, I) \in \tilde{D}} p(\tilde{o}_{t+1} \mid o_t, a_t, I)

即模型要学会根据当前观察、当前动作和用户目标，预测接下来状态的差异性摘要（即下一步抽象观察）。

推理阶段的策略优化

本节介绍如何在推理阶段利用已训练的世界模型 $\phi$ 来优化基于大语言模型（LLM）的 Web 智能体的决策表现。整个系统由三个核心组件组成：

策略模型 $\theta$ ：负责生成动作候选，在推理阶段被冻结（即不更新其参数）。
世界模型 $\phi$ ：预测动作带来的下一步状态。
价值函数 $V$ ：评估每个动作产生的未来状态的价值（即“好坏”）。

推理流程如下：

Step 1: 策略模型采样动作候选。在时间步 $t$ ，智能体首先从策略模型 $\theta$ 中基于当前观察 $o_t$ 和用户目标 $I$ ，通过 top-p decoding 方法生成 $k$ 个动作候选：

\{a^1_t, a^2_t, ..., a^k_t\}.

Step 2: 世界模型预测未来状态。对于每个动作候选 $a^i_t$ ，利用世界模型 $\phi$ 来“模拟”该动作将导致的下一观察 $\tilde{o}^{i}_{t+1}$ ，即：

\{\tilde{o}^i_{t+1}\}_{i=1}^k = \{\phi(o_t, a^i_t, I)\}_{i=1}^k.

注意：每个 $\tilde{o}^{i}_{t+1}$ 是自由形式的自然语言描述，仅强调新旧状态之间的变化，便于推理。

Step 3: 价值函数评估并选择动作。使用一个预训练的大语言模型作为价值函数 $V$ ，对每个候选动作和对应的预测状态进行评估：

\hat{a}_t = \arg\max_{a_t \in \{a^1_t, ..., a^k_t\}} V(I, o_t, a_t, \tilde{o}_{t+1}).

最终选择最优动作 $\hat{a}_t$ 来执行。

实验

作者使用 Llama-3.1-8B-Instruct 作为世界模型的 backbone。
对于策略模型 Policy model，作者采用 GPT-4o (gpt-4o-0513) 和 GPT-4o-mini（gpt-4o-mini-0718）作为 agent backbone。
对于价值函数 Value function，作者利用来自 Mind2Web 的数据对 Llama-3.1-8B-Instruct 进行了微调。

为简化评估并提升准确性，作者将“下一状态预测”任务转化为二分类问题，而不是自然语言生成任务。这是因为评估机器生成的完整 HTML 或可访问性树（accessibility tree）非常困难，通常需要人工评估或借助 LLM 判断器，而这可能引入偏差，目前也尚无共识认为 LLM 在这方面是可靠的评估者。

如何构建训练样本：

使用 difflib Python 库，计算黄金标准（正确）下一状态与多个错误候选状态的词汇相似度；
从中选取最相似但实际上是错误的状态，作为负样本（negative sample）；
将正负状态随机打乱排列，用于训练世界模型以进行分类预测（即“哪个是正确的下一状态？”）。

用于此任务的提示词（prompt）展示于论文中的图 15；人工标注界面见图 8。

推理阶段

使用 top-p 采样（p = 1.0）生成 20 个动作候选，从中选出出现频率最高的三个动作；
对这三个动作分别使用世界模型预测其可能导致的下一状态（提示词如图 20 所示）；
使用 value function 对每个预测状态评估其“奖励”分数（即该状态对任务目标的贡献度，提示词如图 21）；
最终选择获得最高奖励的动作作为执行动作。

与树搜索（Tree Search）智能体的对比

作者将 WMA（World-Model-Augmented）网页智能体与树搜索（Tree Search）智能体在时间效率和 API 成本效率方面进行了对比。

执行一条用户指令时，树搜索智能体平均耗时约 748.3 秒，因为它需要实际与环境交互，探索多个未来状态，并在需要回溯时重新执行一整套先前动作序列。相比之下，WMA 智能体仅耗时约 140.3 秒，因为它通过模拟而非实际执行各个动作候选的后果来完成决策，这使得其运行速度比树搜索智能体快了 5.3 倍。
在 API 成本上，树搜索智能体因使用多模态输入，开销更大，平均是 WMA 智能体的 6.8 倍。

总结来看，在 CMS、Reddit、Gitlab 和 Map 等多个任务环境中，WMA 智能体在保持与树搜索智能体相近性能的同时，展现出显著的时间与成本优势。

消融实验

下一状态的影响

在奖励估计中引入模拟的下一状态有助于提升智能体的性能。为了评估在计算价值评分时引入模拟下一状态的效果，研究将其与仅基于当前观测 $o_t$ 和动作 $a_t$ 的 Q 值函数进行了对比。表 5 第一行结果表明，使用包含下一状态信息的方法能让价值函数更准确地预测奖励，从而显著提升任务执行的效果。这说明模拟出的后续状态在强化学习中对智能体的决策具有重要价值。

模型微调 vs 提示工程

微调相比基于提示的方法更能提升世界模型的效果。研究将所提出的框架与一种变体进行对比：该变体将训练好的世界模型（即微调后的 Llama-3.1-8B-Instruct）替换为未经过训练、仅通过两轮示例（2-shot）进行提示学习的 GPT-4o-mini 来预测下一步观测。结果如表 5 第 2 行所示，该变体的性能明显较差，表明即使是最先进的大模型（SOTA LLM），在未经过训练的情况下也无法充分掌握环境动态。这与第 3.1 节中的发现一致，进一步说明微调对于构建有效的世界模型是关键的。

状态变化的抽象观测的影响

对观测进行抽象有助于提升下一状态的预测效果。为验证第 §4.1.2 节中提出的“状态转换抽象表示”的有效性，研究训练了一种对比模型，该模型直接预测完整的可访问性树（即完整的 $o_{t+1}$ ），而不是只关注状态变化的抽象观测 $\tilde{o}_{t+1}$ 。如表 5 第 3 行所示，结果验证了预期：生成完整的下一观测（即视窗中所有元素）反而削弱了智能体性能，是所有消融实验中成功率最低的。这说明，在观测中处理大量冗余和重复信息会干扰模型对关键状态变化的捕捉，而聚焦于状态转变的抽象观测能更有效地支持世界模型学习。

价值函数的选择

研究对比了用于实现 WMA 的微调模型（Llama-3.1-8B-Instruct）与基于提示的 GPT-4o-mini。表 6 结果显示，微调模型在智能体性能上略优于 GPT-4o-mini。这表明，在 API 预算受限的场景中，通过微调获得的价值函数是一种合理且成本更低的替代方案。

候选 action 数量的影响

图 6 显示，在推理阶段的策略优化过程中，所采样动作数量 $k$ 的增加与智能体任务完成率（SR）之间呈现出正相关趋势。也就是说，采样的候选动作越多，智能体的性能通常越好。该结果表明，在预算允许的情况下，WMA 网络智能体可以通过更充分地探索未来状态来获得更好的任务表现。

未来方向

使用世界模型的另一种方式是基于模拟结果对生成动作进行自我优化（self-refine）。在策略模型 $\theta$ 生成初始动作 $a_t$ 后，使用世界模型预测下一观察状态 $\tilde{o}_{t+1}$ ，再将此预测结果作为反馈重新提示 $\theta$ 以“修正”其动作。换言之，如果模拟结果不理想，模型可以对先前的动作进行调整优化。实验结果显示，该方法比单纯使用 CoT（Chain of Thought）推理的策略提升了 1.8 个百分点的准确率。但相比之下，作者提出的 “模拟-打分-选择”（simulate-score-select）范式在准确率上几乎翻倍，表现更优，因此被选为主策略优化方法。
作者从 WebArena 中随机抽取了 50 个世界模型预测的错误状态（即 $\tilde{o}_{t+1}$ ），并由计算机专业人员手动比对预测观察结果与实际页面视图（viewport），对错误类型进行分类。主要错误类型包括：正确但过于笼统的描述（24%）、对网页元素/功能理解能力不足（26%）、反事实想象（Counterfactual Imagination，42%）、其他错误（8%）。世界模型预测错误中最大的问题是虚构未来状态（反事实），其次是对页面组件功能的理解缺陷。虽然部分描述在语言上“看起来对”，但缺乏精度和可操作性。这表明，构建更可靠的 web world model，需要解决“想象偏差”与“知识不足”这两大挑战。

(202411, Web Agents) Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

近期研究发现，将规划算法（如树搜索）引入网页智能体中，相比于仅根据当前状态做出反应的策略（reactive planning），具有明显优势。然而，与可控的仿真环境不同，现实中的网页环境充满了不可逆的操作，例如点击购买不可退款的商品等，这使得树搜索依赖的“回溯”机制变得不可行。此外，过度依赖测试时搜索也会显著降低执行效率。为此，作者提出了一种新的思路：基于模型的网页智能体规划方法（model-based planning）。这种方法利用世界模型预测各候选动作的未来结果，在执行动作前先进行“模拟与思考”，从而实现更稳健的决策。

Introduction

规划（Planning）—— 即为实现目标而决定最优行动序列——自人工智能诞生以来一直是核心问题。近年来，研究者对能够在各种网站上完成复杂任务的通用型网页智能体（generalist web agents）表现出浓厚兴趣，部分原因是网页作为一个复杂而现实的环境，为智能体的研究和发展提供了良好试验场。然而，将现有的规划算法应用于在线网页环境面临巨大挑战。现实世界中的网页环境充满状态变化且不可逆的操作，例如在 Amazon.com 这样的网站上，一个简单操作可能包括提交订单、创建账户、修改隐私设置等，这些都使得搜索型规划算法中的关键步骤——回溯（backtracking）变得极具挑战甚至无法实现。此外，在测试时依赖大量探索所带来的延迟，也会影响执行效率并损害用户体验。

为应对上述挑战，一个解决方案是基于模型的规划（model-based planning）。该方法通过引入“世界模型”——使智能体能够在模型中模拟一系列动作的结果，从而实现更高效的决策。在传统强化学习任务中，世界模型已取得显著成果，由于环境动态明确、动作空间小且固定，训练世界模型相对容易。然而，将这一方法应用于网页环境仍属探索初期。与封闭的模拟环境不同，互联网是开放且不断演变的，页面结构复杂多样，用户可执行的交互行为种类繁多，这使得构建适用于网页环境的世界模型面临巨大挑战。因此，一个关键问题是：我们应如何为互联网构建高效的世界模型？

WEBDREAMER 方法介绍

Web 智能体在自动化操作真实网站时，面临庞大且复杂的搜索空间。形式上，这类任务在给定指令 $I$ 的情况下可建模为部分可观测马尔可夫决策过程（POMDP），表示为 $(S, A, O, T, R, \Omega)$ 。其中， $S$ 是环境可能状态集合， $A$ 是动作集合，如点击元素、输入文本、导航页面等， $O$ 是智能体可观察到的信息， $T: S \times A \to S$ 表示状态转移函数， $R$ 是二值奖励函数，用于判断任务是否完成。由于环境是部分可观测的，智能体只能通过 $o = \Omega(s)$ 感知状态。直接在环境中进行基于树搜索的规划代价高昂，并存在不可逆风险。为此，基于模拟的模型规划成为更优方案：智能体通过学习到的模拟函数 $\text{sim}(o, a)$ 在执行前预测动作结果，从而进行在线规划。常见方法是模型预测控制（MPC），即在有限的时间视野 $H$ 内模拟每个候选动作对应的未来状态轨迹，并通过得分函数 $\text{score}(\tau)$ 评估，选择得分最高的动作执行。该过程在每次观察到新状态后重复进行，使智能体能够在不频繁干扰环境的前提下，进行动态决策与调整。

图 2 展示了 WEBDREAMER 的规划流程示意：对于每个候选动作，系统会模拟其对应的两步未来轨迹，并选择得分最高的轨迹所对应的初始动作来执行。WEBDREAMER 的核心在于利用大语言模型（LLM）来实现两项关键功能：模拟函数（sim） 和 打分函数（score）。

模拟函数 sim 的实现

sim 由两个模块组成：一个模块预测动作执行后的状态变化，用于近似状态转移函数 $T$ ；另一个模块则基于预测的状态“想象”出接下来的动作，从而支持多步轨迹生成。这两个模块共同生成长度为 $H$ 的模拟轨迹（其中 $H$ 是模拟深度）。为表征状态变化，LLM（如 GPT-4o 或自训练的世界模型）会输出该动作产生的自然语言简洁描述，重点突出该动作的影响，如图 2 中 Stage I 所示。

打分函数 score 的实现

每个候选动作 $a_i$ 所对应的模拟轨迹 $\tau_i$ 生成后，会进一步由 LLM 打分。按照 Koh 等人（2024b）的做法，GPT-4o 会对每条轨迹打出一个三等级分数：完成（1.0）、进行中（0.5）或错误（0.0），表示轨迹完成任务的可能性。最终动作得分是多次模拟与打分的平均结果，得分最高的动作（例如“点击 Electronics”）被选中执行。

候选动作生成

在规划开始前，需要首先生成一组候选动作。WEBDREAMER 采用两阶段方法：第一阶段使用 Koh 等人（2024b）的方法生成 top-k 动作，第二阶段利用 LLM 自我优化（self-refinement）来去除不必要的无关动作。这一自我精炼过程是为了适应不同状态下动作空间的变化——某些步骤本就没有很多合理动作，固定的 k 值可能会引入干扰项。

在论文 TREE SEARCH FOR LANGUAGE MODEL AGENTS 中，给出了 action 采样方法：

为了生成丰富且合理的动作候选，系统采用 核采样（nucleus sampling），设置为：Temperature = 1.0：保留一定生成随机性；
Top-p = 0.95：从累计概率 95% 的词表中随机采样，以平衡创造性与可靠性。

在每一步执行中，模型接收带有 CoT 推理提示的 action-generation prompt，让模型生成** 20 次**动作输出。
CoT 帮助模型逐步思考当前网页状态、可执行动作及其后果，这样生成的候选更贴近合理的操作思维。对每一步 20 个输出中提到的动作分别进行计数，统计每个动作被多次采样命中的“票数”。从票数最高的若干动作中，选出 前 b 个作为下一步的候选动作，用于模型预测或实际执行。

终止机制

系统在每一步都会检查是否满足终止条件（termination_check），包括模型输出了“停止”动作、达到最大步骤数，或某一动作重复执行超过 3 次。

数据合成与模型训练

虽然像 GPT-4o 这样的通用大模型具备充当世界模型的能力，但其推理成本和响应延迟限制了在实时规划中的实用性。为实现更高效、可部署的替代方案，作者提出训练一个更小型的世界模型，具备更低的推理成本并易于迁移到新领域。如图 3 所示，研究团队设计了一个可扩展的数据生成流程，通过启发式策略自动与网页交互。起始网页 URL 来自 2024 年 10 月的 Common Crawl Index，系统会执行包括点击、悬停、输入文本和选择选项在内的随机网页操作。为了更贴近人类交互分布，操作概率被人为调整，例如提升点击操作的频率，同时保持其他操作的覆盖率。此外，通过优先对新出现的元素（如悬停后出现的按钮）进行操作，增强了动作间的因果联系。对于搜索类文本输入，系统使用 GPT-3.5-turbo 生成上下文相关的搜索词。

每次交互后，系统会截取网页操作前后的视觉快照，并使用 Qwen2-VL-72B 生成对网页变化的文本描述，确保精确反映每个动作对页面的影响。每条训练数据包含：初始视觉状态、执行的动作，以及网页变化的文本说明。在数据处理阶段，系统会过滤掉失败的交互、被反爬虫机制阻断的内容以及潜在有害数据，最终得到一个包含超过 310 万条交互实例的数据集，捕捉了丰富的用户行为与网页状态变化之间的因果关系。

在实际操作中，团队首先会在目标网页元素周围绘制红色边框，以便精确地将该元素定位给 Qwen2-VL-72B。接着，模型会被提示分别生成两个描述：（1）该目标元素的指代表达（referring expression），例如“页面左上角的蓝色按钮”；（2）执行动作后网页状态的变化描述。随后，将这两部分自然语言内容整合在一起，结合表 C.1 中预设的随机模板，构建完整的训练样本。

尽管训练数据只使用了有限数量的 prompt 模板与自然图像，实验结果显示，Dreamer-7B 在多个评估基准中展现出良好的泛化能力，不仅能适应此前未见过的指令或 prompt，如 Online-Mind2Web（Xue 等，2025）和 Mind2Web-Live（Pan 等，2024b），还可以处理包含复杂标记结构的图像任务，如 VisualWebArena 中的 Set-of-Mark（Yang 等，2023）。

实验表明，**当模拟深度 $H = 1$ 时，效率与效果之间最为平衡。因此，团队聚焦于训练 sim 中的状态转移模块，并以 Qwen2-VL-7B 作为初始模型。进行微调，以实现对网页中未来状态的预测能力。训练样本被统一格式化为结构化 prompt，例如：

“这是网页截图。在你对 {元素} 执行 {动作} 后，请描述你将会看到什么。”

整个训练过程在 64 张 H100 GPU（每张显存 80GB）的集群上进行，Dreamer-7B 在完整训练集上训练了 最多 2 个 epoch。最终的 Dreamer-7B 模型目标是根据当前网页状态和执行的动作，以自然语言方式预测下一状态，采用 token-level 的语言建模训练目标。为避免每个 checkpoint 都依赖高成本的下游评估，团队还构建了一个内在评价集，用于模型训练过程中的快速性能监控与 checkpoint 筛选。优化器使用 DecoupledAdamW。此外，研究团队还训练了三个 领域特定的世界模型：分别面向 分类广告（Classifieds）、Reddit、购物（Shopping） 三个垂直场景。这些模型均在通用 Dreamer-7B 模型基础上继续微调 1 个 epoch，使用对应的领域内训练数据。与主模型相同的训练配置下，这些微调模型采用更小的学习率 5e-7 和较短的 warmup steps 100，以便在小数据集上实现稳定的参数适应。

实验

消融实验

不同模块的影响

研究团队在 VWA（VisualWebArena）购物任务中的人工验证子集上，对 WEBDREAMER 的两个关键阶段进行了消融实验，分别是 模拟阶段（simulation）和自我精炼阶段（self-refinement）。这一子集是目前规模最大、经过人工标注验证的子集，因此具有较强的代表性。

针对模拟阶段，团队特别关注一个假设：也许模型性能的提升主要来自于对候选动作的重新排序（reranking），而与是否进行模拟无关。为了验证这一观点，研究人员设计了一个实验，完全移除模拟阶段，而是让 reward 模型（score）直接对每个候选动作打分，从而仅做重排序。这一变体称为 Reranking。此外，团队还去除了 WEBDREAMER 框架中的自我精炼步骤（即在候选动作生成后不再过滤冗余动作），以评估该模块的实际贡献。

结果如图 4 所示，虽然 Reranking 相比于基础的响应式（reactive）模型略有提升，但性能仍明显落后于完整的 WEBDREAMER，说明基于 LLM 的模拟能力是整个规划体系的核心，在预测未来状态、引导合理规划方面起到了关键作用。在取消自我精炼模块后，模型性能也出现了下降。深入分析发现，这一性能退化主要归因于：自我精炼模块在当前最优动作明确时，能有效剔除无关或干扰性的候选动作。相反，如果直接对所有动作进行模拟，可能引入额外噪声，反而影响最终动作选择的质量。

模拟深度的影响

为了深入理解模拟深度（H，即规划视野）对模型性能的影响，研究团队在 Online-Mind2Web 子集上，使用 GPT-4o 作为世界模型，评估了 WEBDREAMER 在规划视野为 1、2、3 步时的表现。

实验结果（见图 5）显示：无论设置何种视野长度，WEBDREAMER 的表现始终优于基础的反应式方法（reactive baseline）。然而，当视野从 1 步扩展到 2 或 3 步时，性能反而略有下降。

进一步分析表明，这种性能下降主要源于模拟中的动作生成“幻觉”问题（action proposal hallucination）。在多步模拟中，LLM 会倾向于生成看似合理但在实际预测结果中并不可行的动作。这导致不同动作模拟出的轨迹变得越来越相似，“看起来都像是对的”，从而削弱了动作间的可辨识性和可判别性。此外，在复杂的网页环境中，模拟多步操作带来的误差会逐步积累，进一步影响整体准确性，这一现象也与以往的研究观察一致（Mendes & Ritter, 2025；Chae 等，2025）。

（202504, GUI Agents（世界模型） A Generative Visual GUI World Model for App Agents

ViMo 是首个专为移动应用智能体（App Agents）设计的视觉世界模型，旨在解决现有世界模型在处理长程任务规划时缺乏视觉预测能力的问题。传统模型主要依赖文本描述来预测界面状态，难以还原包含丰富图像信息的 GUI，尤其在涉及界面布局和文字展示等细节时容易出现偏差。为此，ViMo 引入了一种新的图文分离建模方式，通过符号化文本表示（Symbolic Text Representation, STR）将图像中的文本内容以符号占位的方式进行编码，从而保留图形信息的同时降低对像素精度的依赖。ViMo 模型由两个部分组成：STR 预测器用于生成未来界面的图形结构，GUI-text 预测器则负责生成与符号对应的具体文本内容。通过这样的设计，ViMo 能够模拟智能体执行不同动作后界面可能呈现的视觉状态，有效提升其长程规划能力和任务成功率。实验结果表明，ViMo 能生成既真实可信又功能完备的 GUI 图像，显著增强 App 智能体在复杂任务中的决策效果与执行表现。该模型为移动智能体在现实环境中的广泛应用提供了重要技术支撑。

ViMo 为首个视觉 GUI 世界模型，通过引入名为符号化文本表示（Symbolic Text Representation，STR）的新型数据表示方式，将图形内容与文本内容的生成解耦，分别建模，从而有效降低了文本生成过程中对图像精度的敏感性。在 STR 表示中，GUI 中的每段文本都被替换为一个文本符号，即一个具有特定边框和填充颜色的矩形占位符，将其作为 GUI 的一种特殊元素。这一设计将原本复杂的文本生成问题转化为“文本位置定位”问题，使文本生成简化为对文本位置和占位符的预测。基于 STR，ViMo 分别使用两个模块完成图形与文本的生成任务：STR 预测器和 GUI-text 预测器。其中，STR 预测器采用扩散模型架构，根据当前 GUI 提取的 STR 和用户动作信息，预测下一个界面的 STR；而 GUI-text 预测器基于大语言模型（LLM）实现，利用 STR 预测器生成的文本符号，对应输出每个文本符号所代表的具体文本内容。最后，ViMo 将预测得到的 STR 与生成的文本融合，合成出完整的下一个 GUI 界面。

(202501) General agents need world models

如今，研究焦点逐渐转向通用智能体——即能够在复杂真实环境中完成长周期目标导向任务的系统。有观点认为无需显式模型即可实现智能行为，例如 Brooks 提出的“世界即其自身最佳模型”，强调通过感知-动作环路即可实现智能。越来越多的证据表明，所谓的 model-free 智能体实际上可能学习了隐式的世界模型，甚至包括隐式的规划机制。
这引发了一个根本问题：是否存在无需世界模型就能达成人类水平智能的捷径？或者，世界模型是否终究是不可或缺的？如果需要，那模型必须达到何种准确性与完备性？作者对这些问题进行了回答：
‘any agent that satisfies a regret bound for a sufficiently diverse set of simple goal-directed tasks must have learned an accurate predictive model of its environment.’（任何在足够多样的简单目标任务上满足一定后悔界限的智能体，必然已经学习到了其环境的准确预测模型。）

(ICLR2025) COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

本文研究的是具身多智能体协作问题，其中去中心化的智能体只能通过自我视角（egocentric）的观察来实现协作。与单智能体环境中学习世界动态不同，在多智能体环境下，我们需要在仅有部分视觉信息的情况下，根据任意数量的智能体动作来模拟世界动态。为了解决部分可观测性带来的挑战，作者首先训练生成模型，用于在仅观察到部分视角的情况下估计整体世界状态。为了支持在该世界状态上准确模拟多个动作组合的结果，作者提出了一种可组合的世界模型，通过因式分解多个智能体的联合动作来实现视频生成的组合性建模。结合视觉语言模型来推理其他智能体的动作，整体系统采用树搜索方法，将各模块整合，实现了在线协同规划。

(20250711) NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

(20250709) (Two-stage GUI Agent) GTA1: GUI Test-time Scaling Agent

现有研究工作通常将 GUI grounding 模型与 planner 结合使用（例如 Gemini 2.5、Claude 3.7 或 o3）。其中，planner 负责在每一步确定所需的动作，而 grounding 模型则在需要进行定位时用于寻找目标界面元素。然而，由于用户任务本身的灵活性，实现同一任务可能存在多种可行的动作提议序列。其中有些计划更加直接高效，而另一些则可能涉及不必要的冗长或复杂的操作步骤。这使得 agent 系统极易受到影响——即早期的定位或规划错误可能会导致整个任务失败。这种脆弱性通常体现在同一 agent 多次运行时性能波动较大。一个直观的解决思路是预先展开完整的动作序列。然而，与数学问题求解等领域不同，GUI 环境中缺乏“前瞻”能力：agent 无法预演多个多步计划并事后选择最优方案，因为在 GUI 环境中执行的操作通常会带来不可逆的状态变化。因此，论文提出一个核心问题：在缺乏“前瞻”能力且存在多种合理动作序列的情况下，如何设计具备鲁棒性规划能力的 GUI agent？

除了 planner 之外，GUI 定位模型通常依赖监督微调（SFT）。这一方法将模型严格训练为预测目标元素的中心位置。虽然这种方式在某些场景下是有效的，但在复杂的 GUI 环境中，尤其是在超出训练分布的专业界面中，常常表现出泛化能力不足的问题。此外，SFT 的设定与 GUI 定位任务的本质存在不匹配：理论上，目标元素内部的任意坐标都应被视为有效预测，但 SFT 仅优化元素中心位置，限制了模型的灵活性与鲁棒性，也妨碍了模型对适当监督信号的感知。作为替代方法，受 DeepSeek-R1-Zero 成功经验的启发，强化学习（RL），尤其是 Group Relative Policy Optimization（GRPO），已被引入 GUI 定位任务中。按照 DeepSeek-R1-Zero 的思路，相关工作将定位过程分为两个阶段：首先进行“思考”（即文本链式推理 CoT），随后生成坐标预测。通常，模型通过一个格式函数进行训练，该函数强制生成带有推理过程的输出，并借助点击奖励机制判断预测坐标是否落在目标元素区域内。同时，也有部分研究将该方法扩展至预测目标 UI 元素的边界框。虽然上述方法相比 SFT 展现出更优性能，论文仍提出一个问题：明确的“思考”过程或辅助边界框奖励机制，是否真的是实现有效 GUI 定位所必需的？

针对上述两个核心问题，论文提出了两种策略：一是用于规划阶段的 test-time scaling 策略，以提升任务执行的鲁棒性；二是基于强化学习的 grounding model，用于预测交互坐标。具体而言，论文设计了一种无需“前瞻”能力的 test-time scaling 方法。不再依赖单一的动作序列来完成任务，而是在任务执行的每一步，从 planner 中采样多个候选动作，并使用多模态大语言模型进行评估，选择最符合上下文的 action。在执行选定动作之前，若该动作是基于坐标的操作，再通过 grounding model 预测出 GUI 上精确的交互点，并据此执行该动作。对于非坐标类动作（如键盘输入或文本填写），则可以直接执行，无需进行定位。此外，论文提出了一种简单的 grounding model 优化方法，即让模型直接预测交互坐标，并根据预测点是否落在目标元素内给予奖励。由于训练信号与任务目标高度一致，该方法训练效率极高。论文还发现，在动态环境中，对任务对象、历史轨迹及用户指令进行推理（即“思考”）有助于提升表现；但这种推理能力在更广泛的定位场景中往往难以泛化，因而其实用性仍存在一定限制。

模型架构：

模型表现：

许多近期工作在 GUI 定位任务中直接要求模型在生成答案之前先进行“思考”（即链式推理 CoT），并仅在预测坐标落入目标元素区域时给予奖励。然而，这种策略忽视了一个关键问题：在 GUI 定位任务中，精确的空间感知远比多步语言推理更为重要，强行加入“思考”反而可能削弱模型性能。实际上，强化学习在 GUI 定位中的主要优势在于目标一致性——它奖励的是落入正确区域的任意坐标，而不是生成文字化的“思考”。 一项同期研究也提出了类似观点，即链式推理并非 RL 训练所必需，甚至可能影响定位精度。
论文进一步在以下几个方面进行了拓展与区分：

在静态环境中执行的 GUI 定位任务中，“思考”并非必要条件；
在动态、真实环境中，当提供历史轨迹与任务目标时，“思考”能够有效提升定位性能。

Test-time Scaling for Planning

在现实环境中执行用户指令的每一步中，planner 会接收以下信息：用户指令（即任务目标）、已有的执行轨迹，以及当前的界面截图。基于这些上下文信息，系统从 planner 中采样出 $K$ 个候选动作提议，记为 $\{ \mathbf{a}_k \}_{k=1}^K$ ，其中每个 $\mathbf{a}_k$ 表示一个动作，例如点击“蓝色按钮”或执行某个按键操作。接下来，使用一个多模态大语言模型作为判别器 judge，对这 $K$ 个候选动作进行评估，判断它们与用户意图及当前界面状态的一致性。judge（也可以由 planner 自身担任）从候选中选择出最合适的动作提议 $\mathbf{a}_k^*$ ，以便 agent 选择最符合上下文的操作。

一旦选定动作提议 $\mathbf{a}_k^*$ ，就将其与当前截图 $\mathbf{x}$ 一并输入 grounding model $\pi(\cdot, \cdot)$ 。如果该动作为基于坐标的操作（如点击），则 grounding model 将预测出在 GUI 中的精确交互坐标，并据此执行动作；若为非坐标类操作（如按键输入或文本填写），则可直接执行，无需定位。整个过程将按步骤反复进行，直到任务完成或代理达到终止条件。

Grounding 模型训练

训练过程

在强化学习训练中，论文遵循 GRPO 框架，以截图 $\mathbf{s}$ 和动作提议 $\mathbf{a}$ 为输入，从策略模型 $\pi(\cdot, \cdot)$ 中采样 $N$ 个响应 $\{ \mathbf{o}_n \}_{n=1}^N$ （论文考虑 $N=8$ ）。其中每个响应 $\mathbf{o}_n = (x_n, y_n)$ 表示屏幕上的一对像素坐标，对应水平位置 $x_n$ 和垂直位置 $y_n$ 。与以往方法不同，论文不要求模型在预测前生成“思考”（即链式推理 CoT），而是直接输出坐标预测，使其更贴近 GUI 定位任务的本质。随后，每个响应根据其是否落在标注的目标边界框 $b_{\text{ann}} = (x_{\min}, y_{\min}, x_{\max}, y_{\max})$ 内进行评估。若坐标 $(x_n, y_n)$ 满足：

x_{\min} \leq x_n \leq x_{\max} \quad \text{且} \quad y_{\min} \leq y_n \leq y_{\max}

则奖励 $r_n = 1$ ，否则为 0，构成一个二值奖励集合 $\{ r_n \}_{n=1}^N$ 。接着，对奖励进行 Z-score 标准化，得到优势值（advantage）：

v_n = \frac{r_n - \mu}{\sigma}

其中， $\mu$ 和 $\sigma$ 分别是奖励的均值和标准差。

最后，模型的优化目标为：

L = -\frac{1}{N} \sum_{n=1}^{N} \frac{\pi(o_n \mid \mathbf{x}, \mathbf{a})}{\pi_{\text{old}}(o_n \mid \mathbf{x}, \mathbf{a})} \cdot v_n

其中， $\pi_{\text{old}}$ 表示旧策略， $v_n$ 是与预测 $o_n$ 对应的优势值。该损失函数通过对高奖励预测赋予更大权重，鼓励模型提升其生成概率，同时抑制低奖励预测，从而实现有效训练。

Performance

Click Reward Works the Best.
“thinking” Benefits Grounding in Dynamic Environment Only. 在多个基准测试中，作者观察到：无论是否引入“思考”（即链式推理），训练出的 GUI 定位模型在整体性能上差异不大。然而，两种模型往往在不同样本上取得成功，这更可能源于训练过程的不稳定性，而非“思考”带来的系统性推理优势。值得注意的是，在动态环境中，“思考”确实表现出一定效果。例如，在 AndroidWorld 基准任务中，模型接收任务对象、历史轨迹以及用户指令作为输入。论文基于 AndroidControl 数据集对一个 7B 规模、面向特定领域的模型进行训练，发现**该模型在 AndroidControl 测试集上的定位性能，在使用与不使用“思考”的情况下基本持平；但在 AndroidWorld 动态环境中，任务成功率从 39% 提升至 44%。**这一提升归因于更复杂的文本输入（即任务对象 + 历史轨迹 + 用户指令）的组合促使模型在动态、具有挑战性的场景中主动进行“思考”，从而更好地应对环境变化并提高任务完成能力。
Test-time Scaling Generalizes Well.

(20250731) SIMURA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model

为了推动更加通用且强大的人工智能代理的发展，论文提出了 SIMURA（Simulative Reasoning Architecture，模拟推理架构），这是一种面向目标的通用 agent 推理架构。SIMURA 引入世界模型，通过模拟进行规划，来缓解大语言模型（LLM）自回归推理的局限性。具体而言，policy module 首先根据 agent 身份和环境提出若干候选行动；接着，world model 模拟这些候选行动的可能结果；最后，critic module 会根据初始目标评估这些模拟结果，从而选择最优的行动方案。由于对世界的完整细节进行模拟既不可行也不必要，SIMURA 采用自然语言作为一种紧凑但完整的表示方式，仅提取与任务相关的信息，并在这一潜在空间中模拟世界状态的变化。为了提升系统在感知噪声和执行细节干扰下的鲁棒性，SIMURA 还提出了一种分层架构，将感知、模拟规划与行动选择进行隔离，从而在多种任务中实现适应性与一致性。在一系列网页浏览任务中的实验结果表明，SIMURA 相比基线方法有显著提升，航班搜索任务的成功率从 0%提升到 32.2%，其中通过世界模型进行推理的方式在效果上优于传统的 LLM 自回归推理，性能提升高达 124%。

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

(Dec.16 2025) MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

首先，论文提出了 MobileWorldBench，这是一个全面评估视觉语言模型（VLM）世界建模能力的基准测试。与专注于解释当前屏幕元素的现有 GUI 理解任务不同，MobileWorldBench 评估模型根据当前屏幕和给定操作预测未来状态的能力。该基准包含两项任务：下一状态生成（Next-State-Generation）要求模型描述预测的状态转换，并由 VLM 裁判对比真实截图进行评估；下一状态问答（Next-State-QA）则要求模型回答有关未来状态的是非题，通过准确率直接量化其世界建模能力。其次，为促进 GUI agent 语义世界模型的训练，我们构建了大规模数据集 MobileWorld，包含“当前状态、用户操作、未来状态”三元组，并以截图像素、问答对和自然语言描述三种形式呈现。最后，通过微调开源 VLM 验证了语义世界模型的有效性，实验表明，使用该模型的 mobile agents 在 AndroidWorld 基准测试中的成功率提升了 7.4%。

MobileWorldBench

为了构建 MobileWorldBench，我们从 Android Control 数据集的测试集中提取了包含 $(X_t, a_t, X_{t+1})$ 三元组的人类演示轨迹，其中的动作 $a_t$ 表现为“点击确定选项”等自然语言描述。同时，我们也从 Android in the Wild (AiTW) 中获取了轨迹，其包含如“点击 (233, 324)”之类的低级用户操作。我们共为下文状态生成（Next-State-Generation）任务采样了 250 个三元组，为下文状态问答（Next-State-QA）任务采样了 500 个三元组。在 VLM 标注阶段，由于部分轨迹仅包含低级动作，我们利用模型 Qwen3-VL-235B-A22B 将其转换为高级描述；由于模型难以准确理解像素坐标，我们通过在屏幕上叠加动作标记的视觉化方式来提升性能。获取高级动作后，我们利用 GPT-4o 根据 $X_t$ 与 $X_{t+1}$ 之间的差异生成了 4,000 个问答候选项。在质量过滤环节，我们首先通过人工验证确保了动作描述的准确性，随后对问答对进行了严格筛选：包括通过 GPT-4o 自检剔除其无法回答的问题、过滤掉如系统时间等无关元素的干扰，以及最后的人工审核。人类评估员需提供标准答案并判断相关性，任何与 GPT-4o 标注不符或被视为无关的样本均被剔除。最终，过滤后的问答数据集共包含 1,787 个问题。

MobileWorld 数据集

MobileWorld 是一个包含 140 万个样本、用于训练语义世界模型的超大型基础数据集。该数据集包含源自人类演示的状态转移三元组 $(X_t, a_t, X_{t+1})$ ，以及描述动作 $a_t$ 导致状态变化的文本说明 $y_{t+1}$ ，此外还包括关于 $X_{t+1}$ 的问答对。在轨迹溯源方面，我们主要参考 MobileWorldBench 的流程，从 AiTW 和 Android Control 数据集的训练集中提取三元组。在标注阶段，我们通过提示视觉语言模型（VLM）描述观察到的状态差异来获取原始文本，并利用大语言模型（LLM）基于这些变化生成问答对；针对每次状态转移，我们会生成 3 份文本说明和 8 个候选问答对。出于成本考虑，我们未使用 GPT-4o，而是采用了开源模型 Qwen3-VL-235B-A22B 和 Qwen3-VL-8B 协作标注，其中 90% 的数据由 8B 模型完成，10% 由 235B 模型完成，分别对应“预训练”和“微调”数据划分。在后期处理中，我们采用“VLM 作为裁判”的机制，根据准确性、完整性和相关性从候选文本中挑选最优解，并对问答对进行过滤。最终生成的过滤数据集包含 54.3 万个问答对和 94.2 万条状态变化描述，且由于预算限制，训练集未经过人工辅助过滤。

MobileDreamer: Generative Sketch World Model for GUI Agent

In the GUI agent domain, early explorations focus on text-based world models that predict interface changes through natural language descriptions. WEBDREAMER (Gu et al.,2024) simulates action outcomes with natural language and uses LLM-based scoring for action selection. WMA (Chae et al., 2024) predicts important
state changes through transition-focused abstraction. MobileWorld (Li et al., 2025) represents transitions as natural language triplets. While computationally efficient, these text-based approaches lose critical spatial information such as component positions and bounding boxes. Recently, ViMo (Luo et al., 2025) pioneered image-based world models by predicting next-frame GUI screenshots. However, pixel-level prediction incurs high computational costs and struggles with fine-grained detail reconstruction. Moreover, existing approaches lack effective mechanisms for multi-step lookahead, typically relying on single-step greedy selection.

WebWorld: A Large-Scale World Model for Web Agent Training

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.