Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Exploring LLM Reasoning Through Controlled Prompt Variations

Created by
  • Haebom

저자

Giannis Chatziveroglou, Richard Yun, Maura Kelleher

개요

본 연구는 체계적으로 도입된 입력 섭동 하에서 수학 문제 해결 과제에 대한 대규모 언어 모델(LLM)의 추론 강건성을 조사합니다. GSM8K 데이터셋을 제어된 시험대(testbed)로 사용하여, 최첨단 모델이 네 가지 범주의 프롬프트 섭동(무관한 맥락, 병리적 지시, 사실적으로 관련 있지만 불필요한 맥락, 그리고 후자 두 가지의 조합)에 직면했을 때 논리적 일관성과 정확성을 얼마나 잘 유지하는지 평가합니다. 13개의 오픈소스 및 클로즈드소스 LLM에 대해 실시한 실험 결과, 모델의 컨텍스트 창 내에 무관한 맥락을 도입하면 성능이 크게 저하되는 것으로 나타났으며, 이는 필수적인 세부 정보와 외부적인 세부 정보를 구별하는 것이 여전히 시급한 과제임을 시사합니다. 놀랍게도, 성능 저하는 추론에 필요한 단계 수로 측정한 추론 과제의 복잡성에 비교적 민감하지 않으며, 모델 크기와 엄격하게 상관관계가 없습니다. 또한, 명시적인 프롬프트 없이도 특정 섭동이 우연히 사고연쇄(chain-of-thought)와 같은 추론 동작을 유발하는 것을 관찰했습니다. 이러한 결과는 현재 LLM의 중요한 취약성을 강조하고, 노이즈가 많고, 오해의 소지가 있으며, 맥락이 밀집된 입력에 대한 향상된 강건성의 필요성을 강조하여 실제 응용 분야에서 더욱 탄력 있고 신뢰할 수 있는 추론을 위한 길을 열어줍니다.

시사점, 한계점

시사점: 무관한 정보에 대한 LLM의 취약성을 밝히고, 추론 강건성 향상의 필요성을 강조합니다. 사고연쇄와 같은 추론 방식이 의도치 않게 유발될 수 있음을 보여줍니다. 모델 크기와 추론 단계 수가 성능 저하와의 상관관계가 명확하지 않음을 제시합니다.
한계점: 특정 데이터셋(GSM8K)에 대한 결과이므로 일반화에 한계가 있을 수 있습니다. 다양한 유형의 섭동과 더 많은 LLM에 대한 추가 연구가 필요합니다. 무관한 정보와 필수 정보를 구분하는 메커니즘에 대한 자세한 분석이 부족합니다.
👍