Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TextQuests: How Good are LLMs at Text-Based Video Games?

Created by
  • Haebom

저자

Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks

개요

본 논문은 실세계 문제를 반영하는 복잡하고 상호작용적인 환경 내에서 AI 에이전트를 평가하는 새로운 벤치마크인 TextQuests를 제안합니다. 기존 벤치마크들이 도구 사용이나 구조화된 작업 수행 능력에 초점을 맞춘 반면, TextQuests는 Infocom 인터랙티브 픽션 게임을 기반으로 하여 장기간에 걸친 자기 주도적 추론 능력을 평가합니다. 외부 도구 사용을 제한하여 에이전트의 내재적 장기 문맥 추론 능력과 시행착오 학습, 지속적인 문제 해결 능력을 평가하는 데 중점을 둡니다. 인간 플레이어에게 30시간 이상 소요되는 복잡한 게임들을 통해 AI 에이전트의 자체적인 문제 해결 능력을 평가하고, https://textquests.ai 에서 벤치마크를 공개합니다.

시사점, 한계점

시사점:
실세계와 유사한 복잡한 환경에서 AI 에이전트의 장기 추론 및 문제 해결 능력을 평가할 수 있는 새로운 벤치마크 제공.
외부 도구에 의존하지 않고 에이전트의 내재적 능력을 평가함으로써, AI 에이전트의 진정한 능력을 더욱 정확하게 평가 가능.
Infocom 게임의 복잡성을 활용하여, 다양한 종류의 문제 해결 능력을 평가할 수 있는 폭넓은 평가 환경 제공.
TextQuests 벤치마크의 공개를 통해 AI 연구 커뮤니티의 발전에 기여.
한계점:
TextQuests는 텍스트 기반 게임에 국한되어, 다른 유형의 환경이나 상호작용 방식에는 적용하기 어려울 수 있음.
게임의 복잡성으로 인해, 벤치마크를 완료하는 데 많은 시간과 자원이 필요할 수 있음.
벤치마크의 평가 지표 및 측정 방법에 대한 추가적인 연구가 필요할 수 있음.
특정 유형의 게임에 편향된 평가 결과가 나올 가능성이 존재함.
👍