Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPHINX: A Synthetic Environment for Visual Perception and Reasoning

Created by
  • Haebom
Category
Empty

저자

Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi

개요

Sphinx는 핵심 인지 기본 요소를 대상으로 하는 시각적 지각 및 추론을 위한 합성 환경이다. Sphinx는 모티프, 타일, 차트, 아이콘, 기하학적 기본 요소를 사용하여 퍼즐을 절차적으로 생성하며, 각 퍼즐은 검증 가능한 정답 솔루션과 페어링되어 정확한 평가와 대규모 데이터 세트 구성을 가능하게 한다. 이 벤치마크는 대칭 감지, 기하학적 변환, 공간 추론, 차트 해석, 시퀀스 예측을 포함한 25가지 유형의 작업을 다룬다. 최신 대규모 시각 언어 모델(LVLM)을 평가한 결과, 최첨단 GPT-5조차도 51.1%의 정확도를 기록하여 인간 성능에 훨씬 못 미치는 것으로 나타났다. 또한, 검증 가능한 보상(RLVR)을 사용한 강화 학습이 이러한 작업에 대한 모델 정확도를 실질적으로 향상시키고 외부 시각적 추론 벤치마크에서도 개선을 이끌어냄으로써 멀티모달 추론 발전에 대한 가능성을 보여주었다.

시사점, 한계점

시사점:
Sphinx는 시각적 지각 및 추론을 위한 새로운 합성 환경을 제공하여 정확한 평가와 대규모 데이터 세트 구성을 가능하게 한다.
최신 LVLM의 성능을 평가하여 인간 성능과의 격차를 강조한다.
RLVR을 사용한 강화 학습이 모델 정확도를 향상시키고 외부 벤치마크에서도 개선을 이끌어내어 멀티모달 추론 발전에 기여할 가능성을 제시한다.
한계점:
논문에서 구체적인 한계점은 명시되지 않음.
👍