Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation

Created by
  • Haebom

저자

Vishal Pallagani, Nitin Gupta, John Aydin, Biplav Srivastava

개요

본 논문은 대규모 언어 모델(LLM)의 데이터 흐름 추론 능력을 체계적으로 평가하기 위한 새로운 벤치마크인 FABLE을 제안합니다. FABLE은 소프트웨어 공학의 8가지 고전적인 데이터 흐름 분석(reaching definitions, very busy expressions, available expressions, live variable analysis, interval analysis, type-state analysis, taint analysis, concurrency analysis)을 요리 레시피, 여행 경로, 자동화된 계획 등 세 가지 실제 영역에 적용하여 구성됩니다. 총 2,400개의 질문-답변 쌍으로 이루어져 있으며, DeepSeek-R1 8B, LLaMA 3.1 8B, Granite Code 8B 세 종류의 LLM을 평가한 결과, 추론에 특화된 모델이 높은 정확도를 달성했지만 추론 속도가 현저히 느렸고, 다른 모델들은 우연에 가까운 성능을 보였습니다. FABLE은 데이터 흐름 추론을 체계적으로 평가하는 최초의 진단 벤치마크이며, 절차적 이해 능력이 향상된 모델 개발에 대한 통찰력을 제공합니다.

시사점, 한계점

시사점:
LLM의 데이터 흐름 추론 능력에 대한 체계적인 평가를 위한 최초의 벤치마크 FABLE 제시.
추론에 특화된 모델이 데이터 흐름 추론에서 우수한 성능을 보임을 확인.
다양한 도메인과 데이터 흐름 분석 기법을 활용하여 LLM의 추론 능력을 다각적으로 평가.
LLM의 절차적 이해 능력 향상을 위한 연구 방향 제시.
한계점:
추론에 특화된 모델의 높은 정확도는 매우 느린 추론 속도를 수반.
일반 목적 및 코드 특화 모델의 성능이 저조하여 추가적인 모델 개선 연구 필요.
FABLE 벤치마크의 확장성 및 일반화 가능성에 대한 추가적인 연구 필요.
👍