Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

Created by
  • Haebom

저자

Zihao Wang, Xujing Li, Yining Ye, Junjie Fang, Haoming Wang, Longxiang Liu, Shihao Liang, Junting Lu, Zhiyong Wu, Jiazhan Feng, Wanjun Zhong, Zili Li, Yu Wang, Yu Miao, Bo Zhou, Yuanfan Li, Hao Wang, Zhongkai Zhao, Faming Wu, Zhengxuan Jiang, Weihao Tan, Heyuan Yao, Shi Yan, Xiangyang Li, Yitao Liang, Yujia Qin, Guang Shi

개요

Game-TARS는 인간이 사용하는 키보드-마우스 입력을 기반으로 하는 통합적이고 확장 가능한 액션 공간을 사용하여 훈련된 일반 게임 에이전트입니다. API 또는 GUI 기반 접근 방식과 달리, Game-TARS는 OS, 웹 및 시뮬레이션 게임을 포함한 다양한 도메인에서 대규모의 지속적인 사전 훈련을 수행할 수 있습니다. 5000억 개 이상의 토큰과 다양한 트래젝토리 및 멀티모달 데이터를 사용하여 사전 훈련되었으며, 인과 관계 혼란을 줄이기 위한 지속적인 손실 감소와 추론 깊이와 추론 비용의 균형을 맞추는 효율적인 Sparse-Thinking 전략을 사용합니다. 실험 결과, Game-TARS는 오픈 월드 Minecraft 작업에서 이전 SOTA 모델보다 약 2배 높은 성공률을 보였으며, 미지의 웹 3D 게임에서 신규 인간과 유사한 일반성을 달성했으며, FPS 벤치마크에서 GPT-5, Gemini-2.5-Pro 및 Claude-4-Sonnet을 능가합니다. 훈련 시간 및 테스트 시간 확장 결과는 통합 액션 공간이 게임 간 및 멀티모달 데이터로 확장될 때 개선을 유지함을 확인했습니다.

시사점, 한계점

인간의 키보드-마우스 입력을 기반으로 하는 통합 액션 공간을 통해 다양한 게임 도메인에서 일반화된 에이전트 훈련 가능성 제시.
대규모 사전 훈련과 효율적인 Sparse-Thinking 전략을 통해 성능 향상.
Minecraft 및 웹 3D 게임에서 SOTA 모델 및 최신 LLM보다 우수한 성능 달성.
훈련 시간 및 테스트 시간 확장성을 통해 성능 지속 가능성 입증.
단순하고 확장 가능한 액션 표현 방식과 대규모 사전 훈련의 결합이 광범위한 컴퓨터 사용 능력을 가진 일반 에이전트 개발에 유망함.
논문에서 한계점은 명시적으로 언급되지 않음.
👍