본 논문은 거대한 가능성 공간에서 목표를 효율적으로 우선순위화하여 학습 진행(LP)을 극대화하는 개방형 학습 에이전트에 대해 다룹니다. 고차원적이고 변화하는 목표 공간에서 온라인 강화 학습으로 훈련된 LLM 에이전트가 이러한 자기 목적적 탐색을 달성할 때, LP 예측의 주요 과제는 메타인지적 모니터링의 한 형태인 자신의 능력을 모델링하는 것입니다. 기존 접근 방식은 광범위한 샘플링을 필요로 하거나 취약한 전문가 정의 목표 그룹에 의존합니다. 본 논문에서는 LLM 에이전트가 자신의 능력과 LP를 온라인으로 예측하는 법을 학습할 수 있도록 하는 메타인지 프레임워크인 MAGELLAN을 제시합니다. MAGELLAN은 목표 간의 의미 관계를 포착하여 샘플 효율적인 LP 추정과 일반화를 통한 변화하는 목표 공간에 대한 동적 적응을 가능하게 합니다. 상호 작용 학습 환경에서 MAGELLAN은 LP 예측 효율성과 목표 우선 순위를 향상시키며, 에이전트가 크고 변화하는 목표 공간을 완전히 마스터할 수 있게 하는 유일한 방법임을 보여줍니다. 이러한 결과는 LP 예측에 대한 메타인지 능력으로 LLM 에이전트를 증강하는 것이 개방형 목표 공간으로 커리큘럼 학습을 효과적으로 확장하는 방법을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM 에이전트의 메타인지 능력을 향상시켜 개방형 목표 공간에서의 커리큘럼 학습을 효과적으로 확장할 수 있음을 보여줌.
◦
MAGELLAN을 통해 샘플 효율적인 LP 추정과 변화하는 목표 공간에 대한 동적 적응이 가능함.