ACL | Agent-Pro: 通过策略级反思与优化实现学习进化

脑机接口与混合智能研究小组

更多动态

184

2024-11-15

文本

描述已自动生成

该论文发表于Association for Computational Linguistics(ACL)（CCF A类），题目为《Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization》。

浙江大学的Wenqi Zhang为此文第一作者。浙江大学的的Weiming Lu为此文的通讯作者。

论文链接：https://aclanthology.org/2024.acl-long.292

论文概要

大多数基于大预言模型（Large Language Models, LLMs）的智能体都被设计成特定任务的解题工具，依赖精细的提示工程，而不具备通过交互学习和进化的能力。这些任务型解题工具需要手动编写提示来传达任务规则和约束 LLM 的行为，因此难以处理复杂的动态场景（如 21 点和德州扑克等大型互动游戏）。针对这一挑战，作者提出了Agent-Pro，一种具有策略级反思和优化能力的 LLM 智能体，能够从互动经验中学习丰富的专业知识，并逐步提升其行为策略。具体来说，Agent-Pro 采用了一种动态信念生成和反思过程，以推动策略进化。与传统的行为级反思不同，Agent-Pro 在过去的行动轨迹和信念上进行迭代反思，校准非理性的信念以获得更优策略。此外，作者采用了深度优先搜索来进行策略优化，以确保策略收益的持续提升。Agent-Pro 在两个大型交互游戏中进行了评估。实验的结果表明，Agent-Pro 能够在复杂动态场景中学习和进化，表现优于传统的 LLM 和专用模型。Agent-Pro 在不完全信息环境中通过“信念系统”进行策略演化的总体框架如图1 所示。

图片包含日程表

描述已自动生成

图1 Agent-Pro 进行策略演化的总体框架

研究背景

构建具有强大问题解决能力的类人智能体一直是学术界的目标。为此，智能体需要具备在各种任务中学习和泛化的能力。然而，现存的大多数基于 LLM 的智能体极度依赖于精细的提示设计，且无法与任务场景进行有效的交互。解决复杂的问题需要人工给智能体提供详细的任务描述和行为规范，智能体并不能像人类一样从过去的经验中进行学习，并在新的交互任务中持续优化其行为策略。因此，现有的模型在应对不同类型的复杂任务时，往往需要重新构建此前针对特定任务的精细设计，因而在跨任务迁移和知识泛化方面存在明显的局限性。这种局限性使得模型在适应多样化应用场景时缺乏灵活性和适应性，难以在动态、复杂的环境中实现高效的自主学习与策略优化。因此，自主与环境进行交互学习并优化自身行为策略，是类人智能体应具备的一项关键能力。

近年来，许多研究在这一方向上进行了探索，例如通过反馈智能体实现行为级自我校正，或在互动游戏中部署 LLM 。实验表明，在动态互动场景下，即使是最先进的 LLM 模型，也在大多数回合中输给了对手。通过进一步分析其推理过程，可以发现智能体往往采取不理性的行为，无法从长序列的动作中推导出有效策略。

为了应对上述挑战，作者提出了 Agent-Pro，一种启发于心理理论（Theory of Mind, ToM）框架设计的 LLM 智能体。Agent-Pro 具备策略级反思和优化能力，会在交互过程中构建对自身（自我信念）和环境（世界信念）的理解，通过反思过去的经验来校准这些信念，从而提升决策的合理性。Agent-Pro 无需参数调节即可优化行为策略，体现出在复杂任务中自主调整与适应的能力。

研究方法

作者提出的 Agent-Pro 框架主要由信念感知决策过程（Belief-Aware Decision-Making Process）、策略级反思（Policy-Level Reflection）和深度优先搜索策略优化（DFS-based Policy Optimization）三部分组成。整体框架设计使 Agent-Pro 具备在复杂环境中持续学习和自我优化的能力，能够解决多智能体在动态环境中因不完全信息和对手策略多变导致的决策困难问题。

（1）信念感知决策过程

信念感知决策过程是确保智能体在动态、多智能体环境中灵活应对各种不确定性的核心。通过在决策中引入信念系统，智能体能够在不完全信息的条件下有效地预测和推理其他智能体的行为。图2 是信念感知决策过程图。

图形用户界面, 应用程序

描述已自动生成

图2 信念感知决策过程图

在做出决策时，Agent-Pro 根据当前的轨迹进行动态信念 ξ 的生成与更新。该动态信念分为自我信念（Self-Belief）和世界信念（World-Belief）两部分。自我信念允许 Agent-Pro 在本回合根据当前的私人状态来评估自己的状态，而世界信念允许 Agent-Pro 基于对手的行为形成对其策略的推测。信念更新后，Agent-Pro 根据动态信念 ξ 评估当前局面并生成决策。在进行决策相关行动后，Agent-Pro 会根据环境的反馈进一步调整与更新动态信念，并进行下一回合的决策与行动。“信念-行动-反馈”循环进行，直至游戏结束。完整过程可以表示为以下公式：

文本

中度可信度描述已自动生成

其中，H_0:t 表示从游戏开始到第 t 轮的历史轨迹；s_t+1 表示 Agent-Pro 在第 t + 1 轮的私有状态； o_t+1表示公开状态； a_t+1^op1表示对手的当前行动；ξ_t 表示当前信念状态。

（2）策略级反思

策略级反思关注整个任务的信念和行为策略。与动作级反思不同，策略级反思并不直接在每个动作后进行调整，而是在任务结束后，基于整体表现反思信念和策略是否合理，以此确保智能体在长期任务中的连贯性和合理性。图3 是动作级反思与策略级反思的对比。

图3 动作级反思与策略级反思

策略级反思分为信念校准（Belief Calibration）阶段与验证（Verification）阶段。

在信念校准阶段，Agent-Pro 在每局游戏结束后通过校准标准（准确性，一致性，合理性），回顾并评估自我信念和世界信念的合理性，识别导致失败的潜在原因。完成信念校准后，Agent-Pro 会总结出适用于该任务的行为准则和世界建模。其中，行为准则包含 Agent-Pro 在未来任务中应采取的策略，世界建模则记录了对手的特性、行为模式以及环境的动态变化。此过程可以表示为以下公式：

文本

描述已自动生成

其中， H_0:Tⁿ 表示第 n 次游戏的完整轨迹，即从时间 0 到时间 T 的所有历史行为； {ξ_S1ⁿ, ξ_S2ⁿ, …}是信念序列，包含了在不同时间点的自我信念和世界信念；Rⁿ 和 Sⁿ 分别表示游戏的最终结果和得分； Instructionⁿ⁺¹ 表示基于反思生成的新行为准则和世界建模。在验证阶段，Agent-Pro 将新生成的行为准则和世界建模指令加入到策略提示中，并在相同的对手和条件下重新运行一局游戏。如果新策略显著提升了最终得分，Agent-Pro 会将这些指令保留并更新其策略库；反之，Agent-Pro 将重新生成新的指令并再次进行验证。如果经过多次尝试后仍未能通过验证，Agent-Pro 将判定该策略路径无效，并舍弃相应的轨迹。策略更新过程可以表示为以下公式：

文本

描述已自动生成

其中，πⁿ 表示当前策略， Instructionⁿ⁺¹ 为新生成的行为准则和世界建模指令；∪ 表示将新生成的指令合并到现有策略中，形成更新后的策略提示。

（3）深度优先搜索策略优化

深度优先搜索策略优化为 Agent-Pro 提供了在策略树中探索最优策略的能力。当前策略 πⁿ 在更新时生成多个候选策略 {π₁ⁿ⁺¹, π₂ⁿ⁺¹, …, π_Bⁿ⁺¹}，形成 B 个候选分支。随后，计算每个候选策略的收益 ∆₁ⁿ⁺¹ 并与当前策略的收益 ∆ⁿ 进行对比。如果 ∆₁ⁿ⁺¹ > ∆ⁿ，则接受该候选策略；否则，继续在其他分支中搜索。如果所有候选策略都未能提高收益，Agent-Pro 会回溯到前一个策略节点，继续在其他分支中寻找新的优化路径。在策略树的每一层，Agent-Pro 会记录各候选策略的收益，最终选择带来最高收益的策略。图4 是深度优先搜索策略优化策略的实现流程。

图示

描述已自动生成

图4 深度优先搜索策略优化策略

研究结果

（1）Agent-Pro 在德州扑克游戏中的表现

表1 展示了不同智能体策略在三种基础模型（GPT-3.5、GPT-4、Llama2-70B）上进行德州扑克游戏的最终得分表现。每场游戏由四名玩家组成，前三名玩家固定为 DQN、DMC 和 GPT-3.5，最后一名玩家为 Agent-Pro 或基线模型。实验结果显示，Agent-Pro 在 GPT-3.5、GPT-4 和 Llama2-70B 上取得显著进展，平均得分提高了 2 分。此外，它在 GPT-4 上超越了专用智能体（DMC），拥有 3.2 分的优势，并且以较大幅度（超过 2 分）优于其他基于 LLM 的智能体。作者通过进一步分析 Agent-Pro 的世界建模与行为，发现 Agent-Pro 学会了使用多种类似人类的游戏策略（如通过诈唬迫使谨慎的玩家弃牌）。除此以外，通过消融实验（- w/o Learning）可以看出，即使没有学习过程，Agent-Pro 也能使基本 LLM 的表现提升 0.9 分，证明信念可以增强智能体在动态场景中的决策能力。

表1 不同智能体策略在德州扑克游戏中的最终得分

表格

描述已自动生成

图5 是基于不同 LLM 的 Agent-Pro 在整个学习过程中的筹码数量变化图。图 5 显示，基于不同 LLM 的 Agent-Pro 发展出不同的策略。基于 GPT-4 和 GPT-3.5 的 Agent-Pro 在学习的早期阶段表现出快速的提升，最大筹码增益分别为 +2.1 和 +2.3。相比之下，基于 Llama2-70B 的 Agent-Pro 学习过程则有所不同，其表现先在前半阶段下降，然后在后半阶段有所提升（+0.6 筹码）。

图表

描述已自动生成

图5 基于不同 LLM 的 Agent-Pro 在整个学习过程中的筹码数量变化图

图6 记录了划分手牌后各智能体的最终筹码数量。结果显示，Agent-Pro 能够在拥有强牌时赢得更多筹码，在弱牌时损失更少。特别是对于中等牌，Agent-Pro 的表现提升超过 80%，这表明 Agent-Pro 扩展了自身的能力边界。

图表, 条形图

描述已自动生成

图6 手牌划分为弱牌，中等牌和强牌后各智能体的最终筹码数量

（2）Agent-Pro 在21点游戏中的表现

表2 记录了各智能体在 900 局游戏中对庄家的胜率。结果表明，Agent-Pro 相较于大多数基线智能体具有显著的优势，平均优势达到 +4%。例如，在 Qwen-72B 和 Llama2-70B 上，Agent-Pro 相较于 Reflexion 的优势分别增加了 +3.9% 和 +11%。对于 GPT-4，由于21点相对较简单，不同策略的胜率差异较小。

表2 各智能体在 900 局游戏中对庄家的胜率

表格

描述已自动生成

图7 分析了不同初始点总和下各智能体的 Hit 率。Hit 率代表智能体是否愿意冒险抽牌。实验曲线表明，基线智能体仅关注自己的手牌点数，并未充分考虑庄家的牌点数高低情况。而 Agent-Pro 在庄家的牌点数较高时倾向于停牌，并且在庄家的牌点数较低时倾向于抽牌。因此，Agent-Pro 比基线更理性。

日程表

低可信度描述已自动生成

图7 不同初始点总和下各智能体的 Hit 率

结论

论文提出了一个基于大语言模型的智能体框架 Agent-Pro，旨在解决复杂的交互任务。Agent-Pro 通过信念感知的决策过程，建立自我信念和世界信念来适应动态环境，并通过策略级反思和优化机制来不断进化和优化自身策略。在实验中，Agent-Pro 展现出比传统强化学习智能体更强的策略适应能力，能够在不完全信息和多变的环境中表现出人类级别的策略灵活性。未来工作包括提升 Agent-Pro 在较小模型上的表现，并且完善行为准则体系以提升其稳定性和适应性。

撰稿人：何俭涛

审稿人：何乐为

登录用户可以查看和发表评论，请前往登录或注册。