본 논문은 대규모의 실시간 다중 모달 사회적 상호작용 데이터셋인 PLAICraft를 제시합니다. PLAICraft는 비디오, 게임 출력 오디오, 마이크 입력 오디오, 마우스 및 키보드 동작 등 5가지 시간 정렬 모달리티를 통해 1만 시간 이상의 Minecraft 멀티플레이어 게임 플레이 데이터를 수집했습니다. 밀리초 단위의 정밀도로 기록된 이 데이터셋은 풍부하고 개방적인 환경에서 동기화된 구현 행동 연구를 가능하게 합니다. 또한, 객체 인식, 공간 인식, 언어 접지 및 장기 기억 등을 평가하기 위한 평가 도구도 함께 제공합니다. PLAICraft는 실시간으로 유창하고 목적에 맞게 행동하는 에이전트를 훈련하고 평가하는 경로를 열어 진정한 구현 인공 지능을 위한 길을 마련합니다.