본 논문은 대규모 언어 모델(LLM)의 데이터 흐름 추론 능력을 체계적으로 평가하기 위한 새로운 벤치마크인 FABLE을 제안합니다. FABLE은 소프트웨어 공학의 8가지 고전적인 데이터 흐름 분석(reaching definitions, very busy expressions, available expressions, live variable analysis, interval analysis, type-state analysis, taint analysis, concurrency analysis)을 요리 레시피, 여행 경로, 자동화된 계획 등 세 가지 실제 영역에 적용하여 구성됩니다. 총 2,400개의 질문-답변 쌍으로 이루어져 있으며, DeepSeek-R1 8B, LLaMA 3.1 8B, Granite Code 8B 세 종류의 LLM을 평가한 결과, 추론에 특화된 모델이 높은 정확도를 달성했지만 추론 속도가 현저히 느렸고, 다른 모델들은 우연에 가까운 성능을 보였습니다. FABLE은 데이터 흐름 추론을 체계적으로 평가하는 최초의 진단 벤치마크이며, 절차적 이해 능력이 향상된 모델 개발에 대한 통찰력을 제공합니다.