解决 ”环境匮乏“：自动化合成与拓展LLM Agent的交互环境

首页
>>新闻动态

解决 ”环境匮乏“：自动化合成与拓展LLM Agent的交互环境
2026-01-16

信息来源：人大高瓴人工智能学院发布日期：2026年1月15日

在小说阅读器中沉浸阅读自动化合成与拓展LLM Agent的交互环境

随着大语言模型（LLM）能力的不断演进，研究范式正逐渐从静态的文本生成向动态的智能体（Agent）交互转变。传统的静态微调语料难以赋予模型处理复杂状态变化与长程规划的能力，Agent需要在“观测-行动-反馈”的动态闭环中实现自我进化，但这一过程亟需丰富、多样的交互环境作为依托。然而，学术界与工业界正面临着“环境匮乏”的挑战：真实系统接入受限，LLM模拟环境缺乏逻辑严密性，而人工定制沙盒又难以规模化。如何自动化合成与大规模拓展兼具多样性与逻辑深度的环境用于训练，是弥合模型静态知识储备与动态交互能力之间鸿沟的有效途径。本文介绍的工作EnvScaler，探索了一条基于程序化合成的自动化路径，实现了从环境到任务场景的完整构建流水线，旨在为Agent的训练提供可扩展、高一致性的交互演练空间。

论文题目：EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

作者：宋晓帅、常皓飞、董冠霆、朱余韬、窦志成*、文继荣

论文链接：https://arxiv.org/abs/2601.05808

GitHub项目链接：https://github.com/RUC-NLPIR/EnvScaler

备注：该工作尚未完备，仍在持续改进中

摘要：大型语言模型（LLMs）期望被训练成为在各种现实世界环境中行动的智能体（Agent），但这一过程依赖于丰富且多样的工具交互沙盒。然而，真实系统的访问往往受到限制；由LLM模拟的环境容易出现幻觉和不一致性；而人工构建的沙盒则难以扩展。在本文，我们提出了EnvScaler，这是一个自动化框架，旨在通过程序化合成来构建可扩展的工具交互环境。EnvScaler包含两个组件：首先，SkelBuilder通过主题挖掘、逻辑建模和质量评估来构建多样化的环境结构；随后，ScenGenerator为每个环境生成多种任务场景以及基于规则的任务验证函数。利用EnvScaler，我们合成了191个环境和约7000个场景，并将其应用于Qwen3系列模型的监督微调（SFT）和强化学习（RL）。在三个基准测试上的结果表明，EnvScaler显著提升了LLM在涉及多轮、多工具交互的复杂环境中解决任务的能力。

在Github项目中运行与Env交互的Demo

在Github项目中运行从零构建环境的Demo

引言

基于LLM的Agent正日益被期望应用于广泛的现实世界场景。在LLM Agent的训练过程中，丰富多样的工具交互环境（Tool-Interactive Environments）至关重要。Agent需要在环境中通过多轮对话与工具调用来感知状态、执行动作，并根据反馈持续优化策略。

然而，环境构建面临多重困境：真实环境的访问往往受限；LLM模拟环境虽然易于实现，但会伴随幻觉，行为不一致，且缺乏逻辑透明与持久化的状态管理；人工构建的沙盒虽然在可控性和稳定性上具有优势，但是领域覆盖有限，主要面向评测（如ToolSandbox, Tau-Bench），难以支撑大规模的泛化训练。尽管近期已有研究尝试自动化工具或环境建模，但这些工作要么局限于孤立、无状态的工具函数，要么依赖轨迹与文档等环境先验进行环境重构。这使得在不依赖先验知识的前提下，自动化合成和扩展高质量工具交互环境仍面临显著差距。

为了弥补这一差距，我们提出了 EnvScaler，这是一个自动化、可扩展的框架，包含从环境构建到场景生成的完整流水线。在环境构建阶段，SkelBuilder 组件（1）从现有文本资源中挖掘多样化的环境主题；（2）规划状态空间与工具集，并将其转化为完整的程序实现；（3）通过双 Agent 循环质检确保环境质量。在场景构建阶段，ScenGenerator 组件为每个环境生成初始状态数据与任务，通过将任务拆解为检查列表并转换每个检查点为针对环境最终状态的python布尔函数，来提供基于规则、可验证的奖励信号。

利用EnvScaler，我们合成了 191个环境和约7000个场景，并将其应用于Qwen3模型的SFT与RL训练。实验结果表明，合成环境显著提升了模型在 BFCL-v3 Multi-Turn、Tau-Bench 和 ACEBench-Agent 等基准上的表现，验证了EnvScaler在增强LLM Agent环境感知与工具交互能力等方面的有效性。

本文的主要贡献：

1. 方法：提出了EnvScaler，一个可扩展的框架，实现从程序沙盒环境构建再到任务场景生成的完整自动流水线。

2. 数据：构建了191个工具交互环境及约7000个任务场景，通过统计分析验证了合成环境的多样性与复杂性，任务场景的挑战性，以及验证函数的区分性。

3. 实验：回归训练与评测，通过SFT与RL实验证实了合成环境对LLM Agent能力的显著提升，并围绕环境覆盖、规模和策略等提供进一步的分析与见解。

图1 训练环境类型的对比以及EnvScaler的结构概述

EnvScaler

如上图所示，EnvScaler包括两个核心组件：SkelBuilder 构建包含程序逻辑与工具接口的环境骨架，而 ScenGenerator 则在此基础上生成具体的状态数据、任务目标及奖励机制，共同构成了一个自动化，可扩展的Agent训练环境生产流水线。

SkelBuilder通过三阶段来实现自动的环境主题挖掘、建模与评估：

1

环境主题挖掘

鉴于早期围绕对话，指令遵循等研究已经收集了大量真实且多样的任务，并且其中一部分任务可能依赖隐含潜在的环境（例如，退款任务→电商环境）。我们通过逆向推理这些任务来挖掘潜在的环境主题，并结合去重聚合，提炼出覆盖广泛领域的环境描述集合。

2

可执行环境构建

为了将环境描述转化为具体的程序实现，我们首先规划出环境的状态定义、领域规则及工具操作列表；随后进行程序建模，将状态映射为类属性，将每个工具转化为类方法；最后聚合所有程序片段得到完整的Python类文件。

3

双智能体循环质检

针对合成程序可能存在的逻辑漏洞，一个Testing Agent随机生成包含正/边界/负例的工具调用请求，而 Checking Agent 则基于工具执行结果，代码逻辑和状态变化，综合核查环境是否符合预期。通过多轮循环交互，筛选出高质量、鲁棒的环境。

图2 SkelBuilder的流程示意图

SkelBuilder提供了交互的“容器”，ScenGenerator 进一步填充“内容”，为每个环境合成若干个具体的任务场景：

1

初始状态与任务生成

在有状态的环境中，任务的可解性高度依赖于数据状态（例如，Agent无法实现删除一个不存在的文件）。为了保证任务的可解性，ScenGenerator首先生成环境的初始数据库，并基于环境状态，工具集等信息推导出一个有挑战的任务目标。

2

基于规则的任务奖励

基于参考轨迹的匹配难以兼容多解路径。为了实现基于规则，可校验的奖励信号，ScenGenerator首先将复杂任务分解为一系列基于环境最终状态的检查点，每个检查点会被进一步转化为Python布尔函数。在每次轨迹交互结束后，直接运行这些函数来检查环境的最终状态是否满足条件。

图3 ScenGeneartor的流程示意图

合成环境与场景分析

基于EnvScaler框架，我们从两个开源的任务集出发，最终构建了191个工具交互环境及约 7000个任务场景。统计显示，每个环境平均包含约 18.6个工具和 21.4个状态类别，体现了环境的结构复杂度；而环境主题的Embedding可视化分布则证明了环境在领域覆盖上的多样性。

图4 合成环境的统计分析

进一步地，我们随机抽取了50个场景让LLMs进行交互。结果表明，一方面，合成任务能够诱导LLM产生平均 15至25步的长程推理轨迹；另一方面，更强的LLM在平均奖励及逐样本胜率上均保持一致领先。从而证明了任务的挑战性，以及奖励函数在评估LLM能力时的区分度。

图5 在50个抽样场景的实验，Non-Conv/Conv表示是否额外引入LLM模拟的User参与交互

训练与评估

为了验证EnvScaler在提升Agent能力方面的效益，我们从合成集中选择141个环境用于SFT，并利用Qwen3-30B作为教师模型采集了约9K的轨迹；剩余的50个环境用于RL训练。评估实验结果表明，使用EnvScaler合成数据进行SFT后的模型在所有基准测试中均取得了显著改进。结合RL能够进一步提升性能，尤其是在参数更大的Qwen3-8B上收益更为明显。

图6 模型在三个基准的表现

进一步的分析揭示，模型性能的提升并不主要依赖于训练环境与测试环境的领域或工具的表面相似度，而是源于从多样化环境中习得的通用工具使用与任务解决模式。此外，随着训练环境数量的增加，模型在各基准上的表现呈现稳步上升趋势，展现了通过扩展环境来提升Agent能力的途径有效性。

图7 训练-测试环境相似度分析以及环境数量拓展分析

总结与展望

本文提出了 EnvScaler ，初步探索了通过程序化合成解决LLM Agent训练环境匮乏问题的新路径。通过自动化构建的191个可执行环境，我们证实了合成环境在提升LLM多轮工具交互与泛化能力方面的有效性。尽管如此，EnvScaler相比极度复杂的真实世界环境仍存在差距（例如模态、真实业务规则、工具延迟等特性）。展望未来，我们希望进一步探索更贴近真实世界复杂度的环境模拟与构建技术。

友情链接

理工院系

研究机构

职能部门

校外单位

常用链接

解决 ”环境匮乏“： 自动化合成与拓展LLM Agent的交互环境

解决 ”环境匮乏“：自动化合成与拓展LLM Agent的交互环境