BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving
Created by
Haebom
저자
Teng Wang, Wing-Yin Yu, Zhenqi He, Zehua Liu, Hailei Gong, Han Wu, Xiongwei Han, Wei Shi, Ruifeng She, Fangzhou Zhu, Tao Zhong
개요
대규모 언어 모델(LLM)의 고급 추론 능력을 활용하여 자연어 질문을 수학적 모델로 변환하는 연구가 진행되고 있으나, 기존 운영 연구 분야의 오픈소스 데이터셋은 목표 값에만 초점을 맞추고 모델링 프로세스에 대한 자세한 주석(변수 정의 등)이 부족하여 강화 학습 응용에 어려움이 있었다. 본 논문에서는 수학적 모델링 프로세스 전체를 포착하는 포괄적인 레이블로 주석이 달린 StructuredOR 데이터셋을 공개하고, 빔 서치, 프로세스 보상 모델, 쌍방향 선호 알고리즘을 사용하여 강화 학습을 트리 오브 스로트 구조에 통합하는 BPP-Search 알고리즘을 제안한다. BPP-Search는 트리 구조를 효율적으로 탐색하여 완전 탐색을 피하면서 정확도를 향상시킨다. StructuredOR, NL4OPT, MAMO-ComplexLP 데이터셋에 대한 광범위한 실험 결과, BPP-Search는 최첨단 방법을 크게 능가하며, 특히 트리 기반 추론에서 정확성과 효율성이 뛰어나 정답을 더 빠르게 찾는 것을 보여준다. StructuredOR 데이터셋은 Huggingface와 GitHub에서 공개된다.
시사점, 한계점
•
시사점:
◦
LLM을 활용한 운영 연구 문제 해결을 위한 새로운 데이터셋(StructuredOR)과 알고리즘(BPP-Search) 제시.
◦
BPP-Search의 우수한 성능을 통해 LLM 기반 수학적 모델링의 효율성 및 정확성 향상 가능성을 입증.