본 연구는 다양한 유형의 질문(객관식, 참/거짓, 단답형/장답형)을 사용하여 평가되는 대규모 언어 모델(LLM)의 성능에 대한 기존 연구를 바탕으로, 추론 과제에서 서로 다른 질문 유형이 LLM 정확도에 미치는 영향에 대한 탐구를 목표로 한다. 다섯 가지 LLM을 대상으로 정량적 및 연역적 추론 과제에서 세 가지 유형의 질문을 사용하여 성능을 분석하였다. 성능 지표는 추론 단계의 정확도와 최종 답변 선택 정확도를 포함한다. 주요 결과는 다음과 같다: (1) 서로 다른 질문 유형에 따라 LLM 성능에 유의미한 차이가 존재한다. (2) 추론 정확도는 최종 선택 정확도와 반드시 상관관계가 없다. (3) 선택지의 개수와 단어 선택이 LLM 성능에 영향을 미친다.