Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis

Created by
  • Haebom
Category
Empty

저자

Jan Ondras (MIT), Marek \v{S}uppa (Comenius University, Cisco)

개요

본 논문은 시각적 패턴으로부터 기호 규칙을 추상화하여 무한을 유한으로부터 추론하는 수학적 추론 능력을 다중 모드 AI 시스템이 갖추고 있는지 연구한다. FractalBench라는 벤치마크를 통해 이미지를 기반으로 프랙탈 프로그램 합성을 평가한다. 프랙탈은 반복 함수 시스템을 통해 복잡한 자기 유사 패턴을 생성하며, 이는 모델이 시각적 인식과 수학적 추상화를 연결해야 함을 의미한다. GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Flash, Qwen 2.5-VL 등 4개의 선도적인 MLLM을 12개의 대표적인 프랙탈에 대해 평가했다. 모델은 프랙탈을 재현하는 실행 가능한 Python 코드를 생성해야 한다.

시사점, 한계점

76%의 모델이 구문적으로 유효한 코드를 생성하지만, 수학적 구조를 파악하는 데는 4%에 그침.
모델은 기하학적 변환(Koch 곡선: 17-21%)에는 성공하지만, 분기 재귀(트리: <2%)에는 실패하여 수학적 추상화에 근본적인 격차를 드러냄.
FractalBench는 시각-수학적 추론에 대한 오염 저항적인 진단을 제공하며, https://github.com/NaiveNeuron/FractalBench에서 이용 가능.
👍