Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning LLMs are Wandering Solution Explorers

Created by
  • Haebom

저자

Jiahao Lu, Ziwei Xu, Mohan Kankanhalli

개요

본 논문은 최첨단 대규모 언어 모델(LLM)의 추론 능력을 체인 오브 솔루션 프롬프팅이나 트리 기반 추론과 같은 테스트 시간 계산(TTC) 기법을 통해 평가한다. 기존의 추론 LLM(RLLM)들이 해결책 공간을 체계적으로 탐색하는 능력이 부족함을 주장하며, 체계적인 문제 해결의 정의를 공식화하고 RLLM의 일반적인 실패 모드(체계적인 탐색가라기보다는 방황하는 존재임을 드러내는)를 확인한다. 여러 최첨단 LLM에 대한 정성적 및 정량적 분석을 통해, 잘못된 추론 단계, 중복 탐색, 환각 또는 불충실한 결론 등의 지속적인 문제점을 밝혀낸다. 연구 결과는 현재 모델의 성능이 단순한 작업에서는 능숙해 보이지만 복잡성이 증가함에 따라 급격히 저하될 수 있음을 시사한다. 따라서 최종 출력뿐 아니라 추론 과정의 구조 자체를 평가하는 새로운 지표와 도구의 필요성을 제시한다.

시사점, 한계점

시사점:
기존 추론 LLM의 체계적인 문제 해결 능력 부족을 밝힘.
LLM의 추론 과정의 구조적 분석의 중요성 강조.
추론 과정 자체를 평가하는 새로운 지표 및 도구 개발 필요성 제기.
LLM의 추론 성능은 단순 작업에서는 우수하지만 복잡한 작업에서는 급격히 저하될 수 있음을 확인.
한계점:
제시된 실패 모드 외에 다른 실패 모드 존재 가능성.
새로운 지표 및 도구의 구체적인 설계 및 개발 부재.
다양한 유형의 문제에 대한 일반화 가능성에 대한 추가 연구 필요.
👍