ORLoopBench: Solver-in-the-Loop Benchmarks for Self-Correction and Behavioral Rationality in Operations Research

Author

Haebom

저자

Ruicheng Ao, David Simchi-Levi, Xinshang Wang

💡 개요

본 논문은 운영 연구(Operations Research, OR) 분야에서 모델의 실행 불가능성(infeasibility)을 디버깅하는 반복적인 과정을 자동화하기 위한 새로운 벤치마크인 ORLoopBench를 제안한다. 제안된 방법론은 고전적인 OR 디버깅 프로세스를 해결사(solver)와 반복적으로 상호작용하는 마르코프 결정 과정(MDP)으로 모델링하여, 각 단계에서 해결사의 피드백을 받아 모델을 수정해 나간다. ORLoopBench는 OR-Debug-Bench와 OR-Bias-Bench의 두 가지 구성으로 이루어져 있으며, 특히 LLM 모델이 OR 디버깅 및 의사 결정의 합리성을 평가하고 향상시키는 데 기여한다.

🔑 시사점 및 한계

•

기존 LLM 벤치마크가 OR을 단일 단계의 문제 해결로만 다룬 것과 달리, 실제 OR 실무에서 발생하는 반복적인 디버깅 과정을 모델링하여 LLM의 문제 해결 능력 및 자가 수정 능력을 더 현실적으로 평가할 수 있는 기반을 마련했다.

•

제안된 벤치마크와 강화 학습 기반 훈련 방식을 통해 8B 모델이 LP(Linear Programming) 문제 복구에서 기존 최신 API보다 우수한 성능을 보였으며, MILP(Mixed-Integer Linear Programming) 문제 복구로도 전이 학습이 가능함을 입증했다.

•

LLM 모델이 전체 모델 코드를 재현하는 과정에서 발생하는 의미론적 드리프트(semantic drift) 문제를 지적하며, 단순히 기능적으로 올바른 코드를 생성하는 것을 넘어 문제의 본질을 제대로 이해하고 해결하는 능력의 중요성을 강조한다.

•

현재 벤치마크는 주로 LP/MILP에 집중되어 있으며, 더 복잡하고 다양한 OR 문제 유형으로 확장될 필요가 있다. 또한, 실제 OR 실무 환경에서 발생하는 인간 전문가의 복잡한 판단 및 직관을 완전히 모델링하는 데는 여전히 한계가 있을 수 있다.

PDF 보기

Made with Slashpage