ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning
Created by
Haebom
저자
Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi
개요
ACPBench Hard는 효율적인 계획 수립에 필요한 원자적 추론 과제를 제공하는 ACPBench 데이터셋의 생성형 버전입니다. ACPBench는 계획 생성 작업을 가장 간단한 형태의 참/거짓 또는 객관식 질문으로 분해하는 것을 목표로 하지만, ACPBench Hard는 모델이 열린 답변을 생성해야 하는 개방형 질문을 제시합니다. 이를 통해 계획 수립에 필요한 추론 능력을 보다 현실적으로 평가할 수 있습니다. 본 논문에서는 과제의 복잡성과 답변의 정확성 검증 알고리즘을 제시하고, 다양한 모델의 성능을 평가합니다. 실험 결과, 최신 대규모 언어 모델조차도 과제 대부분에서 65% 미만의 정확도를 보이며, 계획에 대한 추론 능력 향상에 상당한 여지가 있음을 보여줍니다. 데이터셋은 https://ibm.github.io/ACPBench 에서 이용 가능합니다.
시사점: 계획 수립에 필요한 원자적 추론 능력 평가를 위한 새로운 벤치마크 데이터셋(ACPBench Hard)을 제시합니다. 현존하는 최첨단 언어 모델들의 계획 추론 능력의 부족을 보여줍니다. 계획 시스템에 통합 가능하거나 정책으로 직접 사용 가능한 모델 개발의 중요성을 강조합니다.
•
한계점: 개방형 질문에 대한 답변의 정확성 검증이 복잡하며, 모델 성능 평가에 어려움이 존재할 수 있습니다. 모든 과제에서 특정 모델의 우월성을 보이지 못했습니다. 현재 모델들의 성능이 아직 미흡하다는 점을 보여주지만, 어떤 유형의 모델이 계획 추론에 가장 적합한지에 대한 명확한 해답을 제시하지 못했습니다.