[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Large Language Model Performance on Reasoning Tasks Impacted by Different Ways Questions Are Asked?

Created by
  • Haebom

저자

Seok Hwan Song, Mohna Chakraborty, Qi Li, Wallapak Tavanapong

개요

본 연구는 다양한 유형의 질문(객관식, 참/거짓, 단답형/장답형)을 사용하여 평가되는 대규모 언어 모델(LLM)의 성능에 대한 기존 연구를 바탕으로, 추론 과제에서 서로 다른 질문 유형이 LLM 정확도에 미치는 영향에 대한 탐구를 목표로 한다. 다섯 가지 LLM을 대상으로 정량적 및 연역적 추론 과제에서 세 가지 유형의 질문을 사용하여 성능을 분석하였다. 성능 지표는 추론 단계의 정확도와 최종 답변 선택 정확도를 포함한다. 주요 결과는 다음과 같다: (1) 서로 다른 질문 유형에 따라 LLM 성능에 유의미한 차이가 존재한다. (2) 추론 정확도는 최종 선택 정확도와 반드시 상관관계가 없다. (3) 선택지의 개수와 단어 선택이 LLM 성능에 영향을 미친다.

시사점, 한계점

시사점:
LLM의 추론 능력 평가 시 질문 유형의 영향을 고려해야 함을 시사한다.
LLM의 추론 과정과 최종 답변 선택 과정을 분리하여 분석할 필요성을 제기한다.
질문 디자인(선택지 개수, 단어 선택 등)이 LLM 성능에 영향을 미치므로, 질문 설계의 중요성을 강조한다.
한계점:
분석에 사용된 LLM의 종류와 수가 제한적이다.
사용된 추론 과제의 종류와 수가 제한적이다.
질문 유형의 영향에 대한 심층적인 메커니즘 분석이 부족하다.
👍