TextQuests: How Good are LLMs at Text-Based Video Games?
Created by
Haebom
저자
Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks
개요
본 논문은 실세계 문제를 반영하는 복잡하고 상호작용적인 환경 내에서 AI 에이전트를 평가하는 새로운 벤치마크인 TextQuests를 제안합니다. 기존 벤치마크들이 도구 사용이나 구조화된 작업 수행 능력에 초점을 맞춘 반면, TextQuests는 Infocom 인터랙티브 픽션 게임을 기반으로 하여 장기간에 걸친 자기 주도적 추론 능력을 평가합니다. 외부 도구 사용을 제한하여 에이전트의 내재적 장기 문맥 추론 능력과 시행착오 학습, 지속적인 문제 해결 능력을 평가하는 데 중점을 둡니다. 인간 플레이어에게 30시간 이상 소요되는 복잡한 게임들을 통해 AI 에이전트의 자체적인 문제 해결 능력을 평가하고, https://textquests.ai 에서 벤치마크를 공개합니다.