Plancraft는 LLM 에이전트를 위한 다중 모드 평가 데이터셋입니다. Minecraft 제작 GUI를 기반으로 텍스트 전용 및 다중 모드 인터페이스를 제공합니다. 도구 사용 및 RAG(Retrieval Augmented Generation) 평가를 위해 Minecraft 위키를 포함하며, 현대 에이전트 아키텍처의 다양한 구성 요소를 분석하기 위해 수작업으로 제작된 플래너와 Oracle Retriever를 포함합니다. 의사결정 평가를 위해 의도적으로 해결할 수 없는 예제의 하위 집합도 포함하여 에이전트가 작업을 완료할 뿐만 아니라 해결 가능한지 여부를 결정해야 하는 현실적인 과제를 제공합니다. 오픈소스 및 클로즈드소스 LLM을 벤치마킹하고 수작업으로 제작된 플래너와 성능 및 효율성을 비교합니다. 전반적으로 LLM과 VLM이 Plancraft에서 제시하는 계획 문제에 어려움을 겪는다는 것을 발견하고, 이들의 기능을 향상시키는 방법에 대한 제안을 제공합니다.