CrafText는 다양한 지시어와 동적인 상호작용이 있는 다중 모달 환경에서 지시어 따르기를 평가하기 위한 벤치마크입니다. 기존 연구들이 정적인 환경, 단순한 지시어, 제한적인 어휘 사용으로 진행된 것과 달리, CrafText는 3,924개의 지시어(3,423개의 고유 어휘 포함)와 Localization, Conditional, Building, Achievement 등 다양한 작업 유형을 포함합니다. 새로운 지시어 표현과 역동적으로 변화하는 작업 구성에 대한 일반화 능력을 측정하는 평가 프로토콜을 제시하여 언어 이해와 적응적 의사결정 능력을 엄격하게 평가합니다.