Megha Srivastava, Cedric Colas, Dorsa Sadigh, Jacob Andreas
개요
본 논문은 자율주행 자동차나 게임 에이전트와 같은 최신 AI 시스템이 초인적인 성능을 달성하지만, 인간과 같은 일반화 능력, 해석 가능성, 그리고 인간 사용자와의 상호 운용성이 부족하다는 문제점을 지적합니다. 인간의 언어와 의사결정 간의 풍부한 상호 작용에서 영감을 얻어, 보상받는 행동의 고차원 전략을 포착하는 언어적 규칙을 생성하는 AI 에이전트를 가능하게 하는 프레임워크인 "언어 병목 현상을 이용한 정책 학습(Policy Learning with a Language Bottleneck, PLLB)"을 제시합니다. PLLB는 언어 모델에 의해 유도되는 규칙 생성 단계와, 규칙이 전체 복잡한 정책을 설명하기에 불충분하더라도 규칙에 의해 유도되는 새로운 정책을 에이전트가 학습하는 업데이트 단계를 번갈아 수행합니다. 2인 신호 게임, 미로 탐색, 이미지 재구성, 로봇 그립 계획 등 다양한 5가지 작업에서 PLLB 에이전트는 더 해석 가능하고 일반화 가능한 행동을 학습할 수 있을 뿐만 아니라, 학습된 규칙을 인간 사용자와 공유하여 인간-AI 협력을 더욱 효과적으로 만들 수 있음을 보여줍니다. 실험에 대한 소스 코드는 https://github.com/meghabyte/bottleneck 에서 제공됩니다.