Sign In

QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?

Created by
  • Haebom
Category
Empty

저자

Belinda Z. Li, Been Kim, Zi Wang

개요

본 논문은 대규모 언어 모델(LLM)이 수학 및 논리와 같은 추론 벤치마크에서 뛰어난 성능을 보이지만, 실제 질의는 종종 불완전하여 누락된 정보를 획득해야 해결된다는 점에 주목한다. 이를 미지수 할당이 누락된 제약 만족 문제(CSP)로 형식화하고, 단 하나의 필요한 변수 할당이 누락된 특수한 경우를 사용하여 LLM의 최소한의 필수 질문 식별 능력을 평가한다. QuestBench라는 일련의 불완전 추론 작업을 제시하며, 여기에는 Logic-Q, Planning-Q, GSM-Q, GSME-Q가 포함된다. LLM은 여러 옵션 중에서 올바른 질문을 선택해야 한다. 현재 모델은 GSM-Q 및 GSME-Q에서 우수하지만, Logic-Q 및 Planning-Q에서는 40-50%의 정확도를 보인다. 이는 모델의 정보 획득 능력을 특별히 최적화할 필요가 있음을 강조한다.

시사점, 한계점

시사점:
LLM의 실제 문제 해결 능력을 향상시키기 위해 정보 획득 능력을 강조한다.
QuestBench를 통해 LLM의 질문 선택 능력을 평가하는 새로운 벤치마크를 제시한다.
잘 정의된 문제 해결 능력이 불완전한 문제 해결에 충분하지 않음을 보여준다.
한계점:
Logic-Q 및 Planning-Q에서 모델의 낮은 정확도.
모델의 정보 획득 능력을 향상시키기 위한 구체적인 최적화 방법은 제시되지 않음.
단일 질문에 한정된 문제 설정.
👍