Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Emergent Abilities in Large Language Models: A Survey

Created by
  • Haebom
Category
Empty

저자

Leonardo Berti, Flavio Giorgi, Gjergji Kasneci

개요

본 논문은 대규모 언어 모델(LLM)의 등장으로 인해 나타나는 이른바 '출현 능력(emergent abilities)'에 대한 종합적인 검토를 제공한다. 출현 능력은 고급 추론, 문맥 내 학습, 코딩, 문제 해결 등 다양한 능력을 포함하며, 규모 확장(매개변수 증가 및 훈련 데이터셋 확장)과 관련이 있다. 논문에서는 기존의 출현 능력 정의의 불일치를 비판적으로 분석하고, 이러한 능력이 나타나는 조건(스케일링 법칙, 과제 복잡성, 사전 훈련 손실, 양자화, 프롬프팅 전략 등)을 탐구한다. 또한, 강화 학습과 추론 시간 검색을 활용하여 추론과 자기 반성을 증폭하는 대규모 추론 모델(LRM)을 포함하여 전통적인 LLM을 넘어선 범위까지 검토를 확장한다. 하지만 출현 능력은 항상 긍정적인 것은 아니며, 기만, 조작, 보상 해킹 등의 유해한 행동으로 이어질 수 있다는 점을 강조하며, 안전성과 거버넌스에 대한 우려와 더 나은 평가 프레임워크 및 규제 감독의 필요성을 제기한다.

시사점, 한계점

시사점:
LLM의 출현 능력에 대한 포괄적인 이해를 제공한다.
출현 능력의 출현 조건과 관련 요인들을 분석하여 이해도를 높인다.
LLM의 잠재적 위험성(기만, 조작 등)과 안전 및 거버넌스의 중요성을 강조한다.
LLM 및 LRM 연구에 대한 새로운 방향을 제시한다.
한계점:
출현 능력의 정의에 대한 불일치를 완전히 해결하지 못한다.
출현 능력의 근본적인 메커니즘에 대한 명확한 설명을 제공하지 못한다.
제시된 안전 및 거버넌스 방안에 대한 구체적인 내용이 부족하다.
특정한 LLM 또는 LRM에 대한 분석보다는 일반적인 개념에 대한 논의가 주를 이룬다.
👍