Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLM Stability: A detailed analysis with some surprises

Created by
  • Haebom

저자

Berk Atil, Sarp Aykent, Alexa Chittams, Lisheng Fu, Rebecca J. Passonneau, Evan Radcliffe, Guru Rajan Rajagopal, Adam Sloan, Tomasz Tudrej, Ferhan Ture, Zhe Wu, Lixinyu Xu, Breck Baldwin

개요

본 논문은 결정론적 설정에서 동일한 입력에 대해 LLM의 출력이 변하는 비결정론적 현상을 체계적으로 조사한 연구입니다. 5개의 LLM을 대상으로 8가지 일반적인 작업에 대해 10회 반복 실행하여(제로샷 및 퓨샷 설정) 비결정론의 영향을 분석했습니다. 그 결과, 자연 발생적인 실행 간 최대 15%의 정확도 변화와 최고 성능과 최저 성능 간 최대 70%의 차이를 발견했습니다. 어떤 LLM도 모든 작업에서 일관된 정확도를 제공하지 못했으며, 동일한 출력 문자열을 생성하지도 못했습니다. 연구진은 비결정론이 컴퓨팅 자원의 효율적인 사용과 관련이 있을 수 있음을 시사하며, 비결정론을 정량화하기 위한 새로운 지표 TARr@N과 TARa@N을 제안했습니다.

시사점, 한계점

시사점:
LLM의 비결정론적 행동이 실제 성능에 상당한 영향을 미침을 밝힘.
LLM의 비결정론은 컴퓨팅 자원 효율과 관련이 있을 가능성 제시.
비결정론을 정량화하는 새로운 지표 (TARr@N, TARa@N) 제시.
LLM의 신뢰성 및 재현성 문제를 명확히 제기.
한계점:
조사된 LLM과 작업의 종류가 제한적일 수 있음.
비결정론의 근본 원인에 대한 심층적인 분석이 부족.
제안된 지표의 일반성 및 적용 범위에 대한 추가 연구 필요.
👍