오픈AI는 o1 모델 발표 시 cons64 벤치마크 결과를 회색 영역으로 표시하여 평가 기준의 차이를 명시했습니다. o3mini의 벤치마크 방식은 아직 공개되지 않았지만, 단일 실행 방식으로 평가된 것으로 보입니다. AIME 24 벤치마크 결과에 따르면 Grok 3는 o3minihigh보다 성능이 낮은 것으로 해석됩니다.
오픈AI에서도 o1 모델 발표 당시 cons64 벤치마크 결과를 회색 영역으로 표시하여 해당 방식이 일반적인 평가 기준과 다름을 명시한 바 있습니다 한편 o3mini에 대한 벤치마크 방식은 아직 정확히 공개되지 않았지만 오픈AI의 직원에 따르면 단일 실행singleshot 방식으로 평가된 것으로 보입니다 따라서 단일 실행 결과를 기준으로 보면 AIME 24 벤치마크에서 Grok 3가 o3minihigh보다 높은 성능을 기록하지 못한 것으로 해석할 수 있습니다