Discovering Multiagent Learning Algorithms with Large Language Models

작성자

Haebom

카테고리

Empty

저자

Zun Li, John Schultz, Daniel Hennes, Marc Lanctot

💡 개요

본 연구는 대규모 언어 모델(LLM)을 활용하여 불완전 정보 게임에서의 다중 에이전트 강화 학습(MARL) 알고리즘을 자동으로 발견하는 새로운 접근 방식을 제시합니다. LLM 기반의 에이전트 프레임워크인 AlphaEvolve를 사용하여 CFR과 PSRO라는 두 가지 게임 이론 패러다임에서 새로운 알고리즘인 VAD-CFR과 SHOR-PSRO를 성공적으로 탐색했습니다. 이 알고리즘들은 기존 최첨단 인간 설계 알고리즘과 경쟁력을 보였으며, 이후 체계적인 제거 연구를 통해 핵심적인 알고리즘 코어의 중요성을 밝혀내고, 더 나아가 일반화 성능이 뛰어나고 복잡성이 줄어든 WOP-CFR과 PM-PSRO라는 두 가지 최소화된 솔버를 개발했습니다.

🔑 시사점 및 한계

•

LLM을 활용하여 복잡한 MARL 알고리즘을 자동으로 발견하고 발전시킬 수 있음을 입증했습니다.

•

LLM이 발견한 복잡한 메커니즘에서 핵심적인 알고리즘 코어를 분리하여 일반화 성능을 높이고 복잡성을 줄이는 방법론을 제시했습니다.

•

LLM이 특정 훈련 세트에 최적화된 복잡한 메커니즘을 생성하는 경향이 있어, 이러한 메커니즘이 반드시 최적의 일반화로 이어지는 것은 아닙니다.

PDF 보기

Made with Slashpage