Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Created by
  • Haebom
Category
Empty

저자

Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi

Lumine: 오픈 월드 환경에서 일반 에이전트 개발을 위한 레시피

개요

Lumine은 도전적인 3D 오픈 월드 환경에서 실시간으로 여러 시간 동안 복잡한 미션을 완료할 수 있는 일반 에이전트를 개발하기 위한 최초의 공개 레시피입니다. Lumine은 시각-언어 모델을 사용하여 지각, 추론 및 행동을 종단 간 방식으로 통합하는 인간과 유사한 상호 작용 패러다임을 채택합니다. 원시 픽셀을 5Hz로 처리하여 정확한 30Hz 키보드-마우스 동작을 생성하고 필요한 경우에만 적응적으로 추론을 호출합니다. Genshin Impact에서 훈련된 Lumine은 5시간짜리 Mondstadt 메인 스토리라인 전체를 인간 수준의 효율성으로 성공적으로 완료하고 자연어 지침에 따라 수집, 전투, 퍼즐 해결 및 NPC 상호 작용을 포함한 3D 오픈 월드 탐험 및 2D GUI 조작 전반에서 광범위한 작업을 수행합니다. Lumine은 도메인 내 성능 외에도 강력한 제로샷 크로스 게임 일반화를 보여줍니다. 파인 튜닝 없이 Wuthering Waves에서 100분 미션과 Honkai: Star Rail의 5시간짜리 첫 번째 챕터를 완료했습니다. 이러한 유망한 결과는 Lumine이 서로 다른 세계 및 상호 작용 역학에서 효과적임을 강조하며, 열린 환경에서 일반 에이전트를 향한 구체적인 발걸음을 나타냅니다.

시사점, 한계점

시사점:
3D 오픈 월드 게임에서 인간 수준의 성능을 달성하는 일반 에이전트 개발의 획기적인 발전.
제로샷 크로스 게임 일반화 능력을 통해 다양한 게임 환경에 적용 가능함을 입증.
시각-언어 모델을 활용하여 지각, 추론, 행동을 통합하는 인간과 유사한 상호 작용 방식을 제시.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍