Sign In

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

Created by
  • Haebom
Category
Empty

저자

Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev

개요

본 논문은 대규모 언어 모델(LLM)의 일반화 및 추론 능력에 대한 기존 평가의 한계를 지적한다. GPT-4나 Claude 3 Opus와 같은 최첨단 LLM들이 표준화된 벤치마크에서 높은 점수를 기록하지만, 간단한 상식 수학 문제(AIW 문제)에 대한 극적인 성능 저하를 보임을 실험적으로 증명한다. AIW 문제는 인간에게는 쉽게 풀리지만, LLM들은 낮은 평균 정확도와 문제 표현의 사소한 변화에도 큰 성능 변동을 보인다. 자연어 처리나 숫자 파싱과 같은 저수준 문제가 아님을 추가적인 제어 실험으로 확인하고, 잘못된 답변에 대한 과도한 자신감과 그럴듯한 설명(confabulation)을 생성하는 현상도 관찰한다. Chain-of-thought 프롬프팅이나 다단계 재평가와 같은 표준적인 개입 방법도 효과가 없음을 보이며, 현재 LLM의 능력에 대한 재평가와 LLM의 일반화 및 추론 능력의 결함을 제대로 감지할 수 있는 표준화된 벤치마크의 필요성을 강조한다.

시사점, 한계점

시사점:
기존의 표준화된 벤치마크가 LLM의 일반화 및 추론 능력을 제대로 평가하지 못함을 보여줌.
LLM의 과도한 자신감과 그럴듯한 잘못된 설명 생성 경향을 발견.
간단한 상식 수학 문제를 통해서도 LLM의 성능 저하를 확인 가능.
LLM의 능력에 대한 재평가 및 새로운 벤치마크 개발의 필요성 제기.
한계점:
제시된 AIW 문제의 일반성 및 대표성에 대한 추가적인 검증 필요.
다양한 유형의 수학 문제에 대한 LLM의 성능을 포괄적으로 분석하지 못함.
제시된 문제 해결을 위한 새로운 벤치마크 설계에 대한 구체적인 방안 제시 부족.
👍