Sphinx는 핵심 인지 기본 요소를 대상으로 하는 시각적 지각 및 추론을 위한 합성 환경이다. Sphinx는 모티프, 타일, 차트, 아이콘, 기하학적 기본 요소를 사용하여 퍼즐을 절차적으로 생성하며, 각 퍼즐은 검증 가능한 정답 솔루션과 페어링되어 정확한 평가와 대규모 데이터 세트 구성을 가능하게 한다. 이 벤치마크는 대칭 감지, 기하학적 변환, 공간 추론, 차트 해석, 시퀀스 예측을 포함한 25가지 유형의 작업을 다룬다. 최신 대규모 시각 언어 모델(LVLM)을 평가한 결과, 최첨단 GPT-5조차도 51.1%의 정확도를 기록하여 인간 성능에 훨씬 못 미치는 것으로 나타났다. 또한, 검증 가능한 보상(RLVR)을 사용한 강화 학습이 이러한 작업에 대한 모델 정확도를 실질적으로 향상시키고 외부 시각적 추론 벤치마크에서도 개선을 이끌어냄으로써 멀티모달 추론 발전에 대한 가능성을 보여주었다.