Sign In

FCoReBench: Can Large Language Models Solve Challenging First-Order Combinatorial Reasoning Problems?

Created by
  • Haebom
Category
Empty

저자

Chinmay Mittal, Krishna Kartik, Mausam, Parag Singla

개요

본 논문은 대규모 언어 모델(LLM)이 그래프 컬러링, 배낭 문제, 암호 산술과 같은 어려운 1차 결합 추론 문제를 해결할 수 있는지 여부를 조사합니다. 기존 연구는 어려운 벤치마크를 가진 데이터셋을 만드는 데 집중했지만, 문제 구조의 1차적 특성을 활용하는 연구는 제한적이었습니다. 이를 해결하기 위해, 본 논문은 다양한 크기의 문제 인스턴스를 생성하고 자동으로 솔루션을 검증 및 생성하는 스크립트와 함께 40개의 어려운 문제로 구성된 FCoReBench 데이터셋을 제시합니다. LLM은 기호 솔버의 도움을 받더라도 FCoReBench 데이터셋에서 성능이 저조하며, 문제 크기가 증가함에 따라 성능이 저하되는 것을 관찰했습니다. 이에 따라, 기호 솔버와 프로그램 인터프리터를 LLM과 결합하고, 몇 가지 해결된 예제로부터 피드백을 받아 성능을 크게 향상시키는 새로운 접근 방식인 SymPro-LM을 제안합니다. SymPro-LM은 문제 크기의 변화에 강하며, 이전 접근 방식과 달리 추론 시간 동안 LLM 호출이 필요하지 않다는 특징을 가지고 있습니다. 추가 실험으로 다른 논리적 추론 벤치마크에서 SymPro-LM의 효과를 보여줍니다.

시사점, 한계점

시사점:
FCoReBench라는 새로운 데이터셋을 제공하여 LLM의 1차 결합 추론 능력을 평가할 수 있는 벤치마크를 제공합니다.
기존 LLM 기반 접근 방식의 한계를 보여주고, 문제 크기 증가에 대한 취약성을 지적합니다.
추론 시간에 LLM 호출이 필요 없는 SymPro-LM이라는 새로운 효과적인 접근 방식을 제안합니다.
SymPro-LM의 다른 논리적 추론 벤치마크에 대한 효과를 보여줍니다.
한계점:
FCoReBench 데이터셋의 규모가 40개 문제로 제한적일 수 있습니다.
SymPro-LM의 일반화 능력에 대한 추가적인 연구가 필요할 수 있습니다. 다양한 유형의 1차 결합 추론 문제에 대한 성능 평가가 더 필요합니다.
SymPro-LM의 학습 과정 및 복잡도에 대한 상세한 설명이 부족할 수 있습니다.
👍