Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DSR-Bench: Evaluating the Structural Reasoning Abilities of LLMs via Data Structures

Created by
  • Haebom

저자

Yu He, Yingxi Li, Colin White, Ellen Vitercik

개요

본 논문은 대규모 언어 모델(LLM)의 데이터 구조를 이해하고 추론하는 능력, 즉 구조적 추론 능력을 평가하기 위한 새로운 벤치마크인 DSR-Bench를 제시합니다. DSR-Bench는 20개의 데이터 구조, 35개의 연산, 4,140개의 문제 인스턴스를 포함하며, 계층적으로 구성되어 추론 제한 사항을 세분화하여 분석할 수 있습니다. 자동화되고 결정적인 평가 파이프라인을 통해 객관적인 평가를 수행하며, 9개의 최첨단 LLM을 벤치마킹하여 다중 속성 및 다중 홉 추론에서의 어려움, 복잡한 구조에서의 취약성 등을 분석합니다. 특히 다차원 데이터 및 자연어 작업 설명에서의 성능 저하를 보여주며, 실제 배포를 위한 중요한 기술적 격차를 강조합니다.

시사점, 한계점

시사점:
LLM의 구조적 추론 능력에 대한 객관적이고 체계적인 평가를 위한 새로운 벤치마크 DSR-Bench 제시.
다양한 LLM의 구조적 추론 능력에 대한 심층적인 분석 결과 제공.
실제 세계 적용을 위한 LLM의 구조적 추론 능력 향상의 필요성 제기.
다중 속성, 다중 홉 추론, 다차원 데이터, 자연어 작업 설명 처리의 어려움을 명확히 제시.
한계점:
DSR-Bench는 합성 데이터를 사용하므로 실제 세계 데이터의 복잡성을 완전히 반영하지 못할 수 있음.
평가 대상 LLM이 제한적일 수 있음.
현재 성능 수준이 낮아 (최고 성능 47%) 실제 응용에 적용하기 위한 추가적인 연구가 필요함.
👍