본 논문은 Minecraft Collaborative Building Task (MCBT)의 하위 과제인 Builder Action Prediction (BAP)에 초점을 맞춰, AI 에이전트의 언어 이해, 환경 인지 및 물리적 세계에서의 행동 능력 향상을 목표로 한다. 기존 BAP의 평가, 훈련 데이터, 모델링의 문제점을 해결하기 위해 BAP v2를 제시한다. BAP v2는 개선된 평가 벤치마크, 더 공정하고 통찰력 있는 지표, 그리고 공간 추론 능력을 주요 성능 저하 요인으로 제시한다. 데이터 부족 문제를 해결하기 위해 다양한 유형의 합성 MCBT 데이터를 생성하고, 이를 활용하여 모델의 공간적 능력을 향상시킨다. 새로운 최첨단 모델 Llama-CRAFTS를 제시하며, 이는 향상된 입력 표현을 활용하여 BAP v2에서 53.0의 F1 점수를 달성한다. 이는 기존 연구보다 6점 향상된 결과이나, 여전히 과제의 어려움을 보여주며 향후 연구를 위한 기반을 마련한다.