# Is Large Language Model Performance on Reasoning Tasks Impacted by Different Ways Questions Are Asked?

### 저자

Seok Hwan Song, Mohna Chakraborty, Qi Li, Wallapak Tavanapong

### 💡 개요

본 연구는 대규모 언어 모델(LLM)이 동일한 추론 과제에 대해 질문 유형에 따라 성능 차이를 보이는지 탐구합니다. 다섯 가지 LLM을 대상으로 객관식, 참/거짓, 단답형/장문형 질문 등 세 가지 유형으로 나누어 양적 및 연역적 추론 능력을 평가했습니다. 그 결과, 질문 유형에 따라 LLM의 추론 정확도와 최종 답변 선택 정확도가 유의미하게 다르며, 선택지의 개수와 단어 선택이 성능에 영향을 미친다는 점을 발견했습니다.

### 🔑 시사점 및 한계

- LLM의 추론 능력을 평가할 때 질문 유형의 다양성이 성능에 큰 영향을 미치므로, 이를 고려한 평가 설계가 중요합니다.

- LLM이 추론 과정에서 정확성을 보이더라도 최종 답변을 올바르게 선택하는 능력과는 반드시 비례하지 않을 수 있습니다.

- 본 연구는 특정 LLM과 추론 유형에 국한되었으므로, 더 광범위한 모델 및 과제에 대한 추가 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2507.15707)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
