본 논문에서는 최첨단 다중 모달 모델들의 초장문 맥락(최대 백만 토큰)에서의 다중 모달 의사결정 능력을 평가하기 위한 벤치마크를 제시합니다. Claude 3.5 Sonnet, Gemini 1.5 Flash, Gemini 1.5 Pro, Gemini 2.0 Flash Experimental, GPT-4o, o1-mini, o1-preview, o1 모델들을 대상으로, 틱택토, 체스, 아타리 게임, 그리드 월드 탐색, 크로스워드 퍼즐 풀이, 시뮬레이션 치타 제어 등의 간단한 상호작용적 의사결정 과제에서 성능을 평가합니다. 전문가 시범의 양을 0개에서 512개의 완전한 에피소드까지 증가시키면서 실험을 진행하며, 관찰 결과를 텍스트 또는 이미지로 인코딩하는 효과와 사고 과정 프롬프팅의 영향도 분석합니다. 전문가 수준의 성능에 도달하는 경우는 드물었으며, 많은 시범을 제시해도 효과가 없는 경우가 많았습니다. 일부 모델은 특정 과제에서 시범이 증가함에 따라 성능이 꾸준히 향상되었습니다. 제로샷, 퓨샷, 메니샷 학습 환경을 통합적으로 평가하는 이 벤치마크를 오픈소스로 공개하여 향후 연구를 위한 기반을 제공합니다.