Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning Can Hurt the Inductive Abilities of Large Language Models

Created by
  • Haebom

저자

Haibo Jin, Peiyan Zhang, Man Luo, Haohan Wang

개요

대규모 언어 모델(LLMs)은 다양한 영역에서 놀라운 발전을 보였지만, 제한된 예시로부터 잠재적인 규칙을 유추하는 귀납적 추론 능력은 여전히 제한적이다. 대규모 추론 모델(LRMs)에서 사용되는 사고 과정(CoT) 프롬프팅이 이러한 추론을 향상시킨다고 종종 가정된다. 본 연구는 체스, 텍사스 홀덤, 주사위 게임, 블랙잭과 같이 숨겨진 인간이 정의한 규칙을 가진 4가지 통제된 진단 게임 기반 작업을 만들어 이 가정을 조사한다. 그 결과, CoT 추론은 귀납적 성능을 저하시킬 수 있으며, LRM이 비추론적 대응 모델보다 성능이 떨어지는 경우가 많다는 것을 발견했다. 이를 설명하기 위해 추론 단계가 세 가지 실패 모드(잘못된 하위 작업 분해, 잘못된 하위 작업 해결, 잘못된 최종 답변 요약)를 통해 오류를 증폭시키는 방법을 보여주는 이론적 프레임워크를 제시한다. 이론적 및 실증적 분석을 바탕으로 식별된 실패 유형에 따라 CoT 생성을 적용하는 구조적 개입을 도입한다. 이러한 개입은 재훈련 없이 귀납적 정확도를 향상시킨다. 본 연구 결과는 효과적인 (CoT) 추론은 더 많은 단계를 수행하는 것뿐만 아니라 그 단계들이 잘 구성되는 것에도 달려 있음을 시사한다.

시사점, 한계점

시사점:
CoT 추론이 항상 귀납적 추론 성능을 향상시키는 것은 아니며, 오히려 성능을 저하시킬 수 있음을 보여줌.
CoT 추론의 실패 모드(잘못된 하위 작업 분해, 해결, 요약)를 분석하고, 이를 바탕으로 구조적 개입을 통해 성능 향상을 도출.
효과적인 CoT 추론을 위해서는 단순히 단계 수 증가뿐 아니라 단계의 구조적 완성도가 중요함을 강조.
재훈련 없이 CoT 생성을 수정하는 구조적 개입을 통해 성능 향상 가능성 제시.
한계점:
제시된 게임 기반 작업의 일반화 가능성에 대한 추가 연구 필요.
더욱 다양하고 복잡한 추론 과제에 대한 추가 실험 필요.
제안된 구조적 개입의 적용 범위 및 한계에 대한 추가 연구 필요.
👍