Cassidy Laidlaw, Eli Bronstein, Timothy Guo, Dylan Feng, Lukas Berglund, Justin Svegliato, Stuart Russell, Anca Dragan
개요
본 논문은 인간 피드백으로부터 강화 학습(RLHF)의 대안으로서 유망한 어시스턴스 게임을 제시합니다. 어시스턴스 게임은 어시스턴트와 사용자 간의 상호 작용을 공유 목표를 관찰할 수 없는 두 플레이어 게임으로 명시적으로 모델링함으로써 RLHF의 속임수 행동에 대한 유인책과 같은 주요 단점을 해결합니다. 단순한 환경에서만 탐색되었던 어시스턴스 게임을 복잡한 환경으로 확장하는 어려움을 해결하기 위해, 본 논문은 추정치가 불가능한 의사결정 문제와 인간 사용자 행동의 정확한 모델링이 모두 필요합니다. 본 논문은 어시스턴스 게임을 해결하는 최초의 확장 가능한 접근 방식인 AssistanceZero를 제시하고, 10⁴⁰⁰개가 넘는 가능한 목표를 가진 새로운 Minecraft 기반 어시스턴스 게임에 적용합니다. AssistanceZero는 인간 행동과 보상을 예측하는 신경망을 통해 AlphaZero를 확장하여 불확실성 하에서 계획을 세울 수 있도록 합니다. Minecraft 기반 어시스턴스 게임에서 AssistanceZero가 모델 기반이 아닌 RL 알고리즘과 모방 학습을 능가함을 보여줍니다. 인간 연구에서 AssistanceZero로 훈련된 어시스턴트는 참가자가 Minecraft에서 건물 작업을 완료하는 데 필요한 행동 수를 크게 줄였습니다. 본 연구 결과는 어시스턴스 게임이 복잡한 환경에서 효과적인 AI 어시스턴트를 훈련하기 위한 실행 가능한 프레임워크임을 시사합니다. 코드와 모델은 https://github.com/cassidylaidlaw/minecraft-building-assistance-game 에서 이용 가능합니다.