Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Non-Determinism of "Deterministic" LLM Settings

Created by
  • Haebom

저자

Berk Atil, Sarp Aykent, Alexa Chittams, Lisheng Fu, Rebecca J. Passonneau, Evan Radcliffe, Guru Rajan Rajagopal, Adam Sloan, Tomasz Tudrej, Ferhan Ture, Zhe Wu, Lixinyu Xu, Breck Baldwin

개요

본 논문은 결정론적 설정에서 동일한 입력에 대해 대규모 언어 모델(LLM)의 출력이 변하는 비결정성 문제를 다룬다. 5개의 LLM을 8가지 일반적인 작업에 대해 10번 실행하여 제로샷 및 퓨샷 설정에서 비결정성을 조사했다. 그 결과, 자연 발생 실행 간 최대 15%의 정확도 변동과 최고 성능과 최저 성능 간 최대 70%의 차이를 발견했다. 어떤 LLM도 모든 작업에서 일관된 정확도를 제공하지 못했으며, 동일한 출력 문자열을 생성하지도 못했다. 연구진은 입력 버퍼에서 데이터를 혼합하여 컴퓨팅 자원을 효율적으로 사용하기 위해 비결정성이 필수적일 수 있다는 것을 발견했다. 비결정성을 정량화하기 위해 원시 출력에 대한 N번 실행의 총 일치율(TARr@N)과 구문 분석된 답변의 총 일치율(TARa@N)을 제시했다. 코드와 데이터는 공개적으로 제공된다.

시사점, 한계점

시사점: LLM의 비결정성이 예상보다 훨씬 광범위하며, 결과에 상당한 영향을 미칠 수 있음을 보여준다. LLM의 효율적인 컴퓨팅 자원 사용을 위해 비결정성이 중요한 역할을 할 수 있음을 시사한다. 비결정성을 정량화하기 위한 새로운 지표(TARr@N, TARa@N)를 제시하였다.
한계점: 특정 LLM과 작업에 국한된 연구 결과이므로 일반화에는 주의가 필요하다. 비결정성의 근본 원인에 대한 심층적인 분석이 부족하다. 제공된 코드와 데이터의 상세 내용이 부족하다.
👍