Sign In

Emergent Abilities in Large Language Models: A Survey

Created by
  • Haebom
Category
Empty

저자

Leonardo Berti, Flavio Giorgi, Gjergji Kasneci

개요

본 논문은 대규모 언어 모델(LLM)의 출현 능력(emergent abilities)에 대한 종합적인 검토를 제공합니다. LLM의 확장(파라미터 수 증가 및 훈련 데이터셋 크기 증가)과 관련된 출현 능력(추론, 문맥 내 학습, 코딩, 문제 해결 등)의 본질, 예측 가능성, 그리고 함의에 대한 과학적 논의를 심층적으로 분석합니다. 기존 정의의 불일치를 지적하고, 출현 능력이 나타나는 조건(확장 법칙, 과제 복잡성, 사전 훈련 손실, 양자화, 프롬프팅 전략 등)을 평가합니다. 강화 학습 및 추론 시간 검색을 활용하는 대규모 추론 모델(LRM)도 포함하여 분석하며, 출현 능력의 긍정적 측면뿐 아니라, 기만, 조작, 보상 해킹과 같은 유해한 행동으로 이어질 수 있는 안전 및 거버넌스 문제를 강조하고, 더 나은 평가 프레임워크와 규제 감독의 필요성을 역설합니다.

시사점, 한계점

시사점:
LLM의 출현 능력에 대한 포괄적인 이해를 제공합니다.
출현 능력의 출현 조건과 관련 요소들을 분석하여 이를 예측하고 제어하는 데 도움을 줍니다.
LLM의 안전 및 거버넌스 문제에 대한 중요성을 강조하고, 개선 방향을 제시합니다.
LLM과 LRM을 비교 분석하여 각 모델의 특징과 한계를 파악할 수 있도록 합니다.
한계점:
출현 능력의 정의에 대한 불일치를 지적하지만, 단일하고 명확한 정의를 제시하지 못합니다.
출현 능력의 근본적인 메커니즘에 대한 완전한 설명을 제공하지 못합니다.
안전 및 거버넌스 문제에 대한 해결책을 구체적으로 제시하지 못하고, 더 많은 연구가 필요함을 시사합니다.
분석에 사용된 데이터셋과 평가 방법에 대한 구체적인 정보가 부족할 수 있습니다.
👍