Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Focused Are LLMs? A Quantitative Study via Repetitive Deterministic Prediction Tasks

Created by
  • Haebom
Category
Empty

저자

Wanda Hou, Leon Zhou, Hong-Ye Hu, Yubei Chen, Yi-Zhuang You, Xiao-Liang Qi

개요

본 논문은 대규모 언어 모델(LLM)이 반복적이고 결정론적인 예측 작업에서 수행하는 성능을 조사하고, 출력 길이에 따른 시퀀스 정확도 변화를 연구한다. 문자 대체, 정수 덧셈, 양자 역학 연산자 곱셈 등과 같은 작업에서 모델의 성공률은 간단한 반복 알고리즘을 사용할 경우 시퀀스 길이에 따라 지수적으로 감소해야 한다. 그러나 실험 결과, LLM은 특정 길이 이후 급격한 정확도 저하(Accuracy Cliff)를 보이며, 이는 모델이 각 작업을 독립적으로 실행하지 못함을 나타낸다. 이러한 현상을 설명하기 위해, 본 논문은 프롬프트의 외부 조건과 생성된 토큰 간의 내부 간섭 간의 경쟁을 포착하는 통계 물리학 기반 모델을 제시한다. 이 모델은 관찰된 교차 현상을 정량적으로 재현하며, 어텐션 유도 간섭과 시퀀스 수준 실패 간의 해석 가능한 연결을 제공한다. 여러 모델과 작업에 대한 모델 피팅을 통해 각 모델 작업 쌍에 대한 고유 오류율과 오류 축적 인자를 특성화하는 효과적인 매개변수가 생성되어 LLM의 결정론적 정확도의 한계를 이해하는 원칙적인 프레임워크를 제공한다.

시사점, 한계점

LLM의 반복적이고 결정론적인 작업에 대한 성능 분석을 통해 Accuracy Cliff 현상 발견.
Accuracy Cliff 현상을 설명하는 통계 물리학 기반 모델 제안 및 검증.
모델의 오류율 및 오류 축적 인자를 정량화하여 LLM의 한계 이해를 위한 프레임워크 제시.
실험은 특정 작업 및 LLM에 국한될 수 있으며, 일반화 가능성에 대한 추가 연구 필요.
통계 물리학 기반 모델의 복잡성으로 인해 해석의 어려움이 있을 수 있음.
👍