LLM辅助Agent决策论文阅读

xiaodi xu

2023-09-02

Code

LLM辅助RL Agent决策

在多智能体强化学习中，由于同时涉及时间和结构尺度，适当分配奖励十分困难，尤其是在稀疏奖励的情况下。自动生成子目标的方法近年来在多智能体强化学习中得到了广泛应用，但是从稀疏奖励中学习复杂任务规划的端到端学习需要大量的训练样本，并且现有的方法往往会生成大量与实际任务奖励关联性有限的虚假子目标，降低了算法的样本效率。为了解决这个问题，现有的自动生成子目标的方法通常采用两阶段的端到端学习过程，首先生成每个智能体的子目标，然后学习使智能体实现这些子目标的策略。然而，这些方法往往需要大量的训练样本，并且由于多样性促进的表示学习方法可能会导致子目标的“过度表示”，生成大量与任务奖励关联性有限的冗余子目标，降低了算法的样本效率。

Semantically Aligned Task Decomposition in MARL

Basic Information:

Title: Semantically Aligned Task Decomposition in MARL (多智能体强化学习中的语义对齐任务分解)
Keywords: Multi-Agent Reinforcement Learning, Task Decomposition, Sparse Reward, Automatic Subgoal Generation, Language-Grounded RL
URLs: Paper, [GitHub: None]

论文简要 :

本研究的研究思路是通过在多智能体强化学习中实现语义对齐的任务分解，帮助多智能体强化学习中有效地分配任务和子目标。论文提出了一种语义对齐的任务分解方法，确定需要完成的目标，然后基于各个智能体的能力和状态将目标分解为多个子目标。

本研究还设计了一种自我反思的决策检查方法，用于判断任务分解和子目标分配过程中是否出现错误。如果发现错误，决策检查者将接管错误的角色，并重新生成和分解目标，或重新分配子目标。

通过实现语义对齐的任务分解和有效的子目标分配，本研究解决了多智能体强化学习中任务分配和协作效率的问题。这种方法可以提高多智能体系统在协作任务中的性能，并实现更高效的任务完成。鉴于现有方法的局限性，本文受到解缠表示学习的启发，提出了一种新颖的“解缠”决策方法，即在多智能体强化学习中的语义对齐任务分解（SAMA）。SAMA利用预训练语言模型GPT作为先验知识和常识的来源，通过链式思维提示语言模型生成潜在目标，并提供适当的目标分解和子目标分配，以及基于自我反思的重新规划。此外，SAMA还结合了语言引导强化学习，训练每个智能体的子目标条件策略。通过在两个具有稀疏奖励的挑战性任务上的实验证明，SAMA相比于现有的自动生成子目标方法具有显著的样本效率优势。

方法:

本文讨论了合作多智能体强化学习（MARL）中稀疏奖励下的信用分配挑战。强调了在时间和结构尺度上分配信用的困难性。值分解框架通常用于解决结构性信用分配问题。在稀疏环境中学习沿轨迹分配信用的主要挑战是每个智能体通过随机探索获得有益轨迹的困难性。基于子目标的方法已经成为一种可行的替代方案，将任务分解为一系列目标和子目标。然而，现有的自动生成子目标（ASG）方法存在子目标过度表示的问题，导致样本效率降低。提出的方法，MARL中的语义对齐任务分解（SAMA），利用预训练的语言模型（PLMs）生成语义对齐和不重叠的子目标，解决了现有ASG方法的局限性。
提出的算法框架SAMA通过促使PLMs实现解耦、常识驱动的自动生成子目标，以解决MARL中的信用分配问题。它采用了一种语言基础机制，使每个智能体能够学习一个以自然语言子目标为条件的强化学习策略，以实现高效的MARL和PLM协作。SAMA在样本效率方面相比最先进的基于子目标的MARL方法具有明显的优势，这一点在Overcooked和MiniRTS的性能上得到了证明。当出现错误时，使用自反思机制来促使PLM重新规划任务。

案例

OverCook多agent合作

RTS游戏指挥

结果:

文章中介绍了一种名为SAMA（Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning）的方法，并对其进行了实验评估。下面是每个步骤的研究结果和对实验假设的论证：
1. 实验假设：SAMA方法可以解决多智能体强化学习中的“样本稀缺”和“目标过度表示”挑战。
2. 目标生成、分解和分配：通过使用预训练的语言模型（PLM），SAMA方法能够生成与自然语言任务手册语义对齐的目标，并将目标分解为子目标，并将子目标分配给每个智能体。实验结果表明，SAMA方法能够生成合适的目标，并将其分解和分配给智能体。
3. 自我反思机制：SAMA方法引入了自我反思机制，用于改进语义对齐目标的生成、分解和分配过程。实验结果表明，自我反思机制能够显著提高SAMA方法的性能。
4. 语言引导的强化学习：SAMA方法使用语言引导的强化学习来训练每个智能体的子目标条件策略。实验结果表明，语言引导的强化学习能够使智能体的策略与语义对齐的目标紧密匹配，并促进智能体之间的合作。

总体而言，实验结果支持了SAMA方法的有效性，并论证了实验假设。该方法能够解决多智能体强化学习中的挑战，并在长期、稀疏奖励和高度协作的任务中取得良好的性能。

研究结论：本文的研究结论是通过语义对齐的任务分解方法在多智能体强化学习中实现了有效的目标分解和分配。该方法能够根据当前情况选择最合适的子目标，并使智能体能够独立地完成这些子目标，从而提高了多智能体系统的性能。
研究的创新性：本研究的创新性主要体现在以下几个方面：

引入了语义对齐的任务分解方法，通过对当前情况进行分析和推理，选择最合适的子目标，从而提高了任务分解的准确性和效率。
提出了一种有效的子目标分配策略，使得智能体能够独立地完成各自的子目标，从而提高了系统的并行性和整体性能。
在多智能体强化学习领域中，将语义对齐的任务分解方法应用于实际问题，并取得了良好的效果。

研究的不足之处：本研究还存在一些不足之处：

在实验中，只针对特定的游戏环境进行了验证，对于其他类型的任务和环境的适应性还需要进一步研究。
在目标分解和分配过程中，可能存在一定的误差和不确定性，需要进一步改进算法和方法，提高准确性和稳定性。
对于模型中可能存在的社会偏见和刻板印象的处理还需要更深入的研究和探讨。

研究展望：基于本研究的结果，可以进一步开展以下研究方向：

探索更多复杂任务和环境下的语义对齐的任务分解方法，提高系统的适应性和泛化能力。
进一步研究目标分解和分配的算法和策略，提高准确性和效率，并解决误差和不确定性的问题。
深入研究和解决模型中可能存在的社会偏见和刻板印象的问题，确保系统的公平性和中立性。
将语义对齐的任务分解方法应用于更广泛的领域，如自动驾驶、多智能体路径规划、云计算等，探索其在实际应用中的效果和潜在价值。

研究意义：

在理论上，本研究提出了一种新的任务分解方法，为多智能体强化学习领域的研究提供了新的思路和方法。
在实践上，本研究的方法可以应用于实际问题中，提高多智能体系统的性能和效率，具有一定的应用价值。

Note:

提示词：

Basic Information:

Title: Hierarchical Decision Making by Generating and Following Natural Language Instructions (通过生成和遵循自然语言指令进行分层决策)
Authors: Hengyuan Hu, Denis Yarats, Qucheng Gong, Yuandong Tian, Mike Lewis
Affiliation: First author’s affiliation: Facebook AI Research (第一作者所属机构：Facebook AI Research)
Keywords: hierarchical decision making, natural language instructions, real-time strategy game, planning and execution, compositional structure (分层决策，自然语言指令，实时策略游戏，规划和执行，组合结构)
URLs: Paper, GitHub Code

论文简要 :

通过生成和遵循自然语言指令，本研究探索了一种表达复杂动作的分层决策方法。在一个挑战性的实时策略游戏环境中，通过收集人类玩家的指令和执行数据集，训练了指导者和执行者模型，并证明了使用自然语言作为潜在变量的模型明显优于直接模仿人类动作的模型。语言的组合结构对于动作表示的有效性至关重要。

背景信息:

论文背景: 复杂问题可以自然地分解为高层规划和低层控制的步骤，但规划表示是具有挑战性的。本研究通过使用自然语言指令作为复杂动作的表达方式，解决了规划表示的挑战性问题。
过去方案: 传统的强化学习环境（如Atari或网格世界）对于规划在不同抽象级别上的作用并不适用。手动设计的宏操作通常无法与强大的人类表现相匹配。因此，需要一种新的方法来表示复杂动作。
论文的Motivation: 本研究的动机是利用自然语言指令作为复杂动作的表达方式。自然语言可以表达任意目标，并具有组合结构，可以实现对指令的泛化。通过将决策过程分解为规划和执行模块，并在它们之间引入自然语言接口，可以更好地解决复杂决策问题。

Snipaste_2023-09-04_15-12-53

方法:

a. 理论背景:
- 作者提出使用自然语言指令作为层次决策制定复杂动作的表示方法。他们开发了一个实时策略游戏环境，并从人类游戏中收集了一组指令执行对的数据。使用自然语言作为潜变量的模型优于直接模仿人类动作的模型。
b. 技术路线:
- 作者将复杂动作表示为自然语言指令，并引入了一个两级层次结构，其中高级指导模型为低级执行模型生成自然语言子目标。他们从实时策略游戏中收集了一组人类指令和执行的数据。

结果:

a. 详细的实验设置:
- 作者介绍了基于MiniRTS的实时策略游戏环境。该游戏具有石头剪刀布单位攻击动态，并且具有大的状态-动作空间和部分可观察性的挑战。该游戏旨在对人类直观但对机器具有挑战性。
b. 详细的实验结果:
- 实验结果显示，当使用组合编码器（如词袋模型或循环神经网络模型）对指令进行编码时，执行模型的性能更好。使用组合指令编码器可以提高人类动作的可能性和与非层次执行模型（EXECUTORONLY）的胜率。指导模型在更结构化的指令模型下也显示出更好的可能性，特别是对于更大的指令集。结果表明，语言在表示复杂计划方面的潜力以及利用语言的组合结构进行泛化的重要性。