Sign In

Continual Learning, Not Training: Online Adaptation For Agents

Created by
  • Haebom
Category
Empty

저자

Aman Jaglan, Jarrod Barnes

개요

ATLAS는 실시간 적응이 필요한 배포된 에이전트에 적합하도록, 그래디언트 기반 재학습을 통해 치명적 망각을 완화하는 데 중점을 둔 기존의 Continual Learning (CL) 방법론과 달리, 추론(Teacher)과 실행(Student)을 분리하는 이중 에이전트 아키텍처를 도입했습니다. ATLAS는 경험으로부터 얻은 증류된 지침을 저장하는 지속적인 학습 메모리를 통합하여, 시스템이 추론 시 감독 수준 또는 초기 계획 선택과 같은 운영 전략을 동적으로 조정할 수 있도록 합니다. 이를 통해 그래디언트 없는 지속적 학습을 달성하고, 적응의 초점을 모델 매개변수에서 시스템 수준 오케스트레이션으로 전환합니다. ATLAS는 적응적 효율성을 목표로, 매개변수 업데이트 대신 추론 시 오케스트레이션을 통해 작업 성공을 극대화하면서 계산 비용을 최소화합니다. Microsoft의 ExCyTIn-Bench 벤치마크에서 GPT-5-mini를 Student로 사용하여 54.1%의 성공률을 달성하고, 더 큰 GPT-5(High)보다 13% 더 높은 성능을 보였으며 비용은 86% 절감했습니다.

시사점, 한계점

시사점:
그래디언트 없는 지속적 학습을 위한 실행 가능한 경로를 제시하여 적응형 배포 가능한 AI 시스템을 개발할 수 있음을 입증.
시스템 수준 오케스트레이션을 통해 비용 효율적인 성능 향상을 달성.
사이버 위협 조사 벤치마크에서 우수한 성능을 보이며 실제 문제 해결 가능성을 입증.
사전 학습 없이도 일반화 성능을 보여줌.
명시적 세계 모델 훈련에 유용한 인과적으로 주석 처리된 추적 제공.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (제공된 정보 내에서는 찾을 수 없음)
👍