Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs

Created by
  • Haebom

저자

Shixian Luo, Zezhou Zhu, Yu Yuan, Yuncheng Yang, Lianlei Shan, Yong Wu

개요

본 논문은 대규모 언어 모델(LLM)의 기하 공간 추론 능력, 특히 절차적 코드로 표현된 기하 공간 정보 처리 능력에 대한 연구를 다룬다. 프로그램-기하(Program-to-Geometry) 작업을 공식화하여 모델이 프로그래밍 드로잉 코드를 정확하고 추상적인 기하 추론으로 변환하는 능력을 평가한다. 이를 위해 기하적 복잡성을 기준으로 3단계 분류 체계를 갖춘 500개의 문제로 구성된 GeoGramBench 벤치마크를 제시한다. 17개의 최첨단 LLM을 평가한 결과, 최고 수준의 추상화에서도 50% 미만의 정확도를 보이는 등, 프로그램 기반 공간 추론의 어려움을 보여준다. GeoGramBench는 기호-공간 기하 추론 연구 발전에 기여할 가치 있는 자료임을 제시한다.

시사점, 한계점

시사점:
프로그램 기반 기하 공간 추론의 어려움을 명확히 보여주는 새로운 벤치마크(GeoGramBench)를 제시하였다.
최첨단 LLM의 기하 공간 추론 능력에 대한 객관적인 평가 결과를 제공하였다.
기호-공간 기하 추론 분야의 연구 발전에 기여할 수 있는 새로운 연구 방향을 제시하였다.
한계점:
현재 벤치마크의 규모(500개 문제)가 향후 더욱 다양하고 복잡한 문제를 포함하도록 확장될 필요가 있다.
평가 대상 LLM이 제한적이므로 더욱 다양한 모델에 대한 평가가 필요하다.
프로그램-기하 작업 외 다른 유형의 기하 공간 추론 작업에 대한 연구가 추가적으로 필요하다.
👍