Berk Atil, Sarp Aykent, Alexa Chittams, Lisheng Fu, Rebecca J. Passonneau, Evan Radcliffe, Guru Rajan Rajagopal, Adam Sloan, Tomasz Tudrej, Ferhan Ture, Zhe Wu, Lixinyu Xu, Breck Baldwin
개요
본 논문은 결정론적 설정에서 동일한 입력에 대해 대규모 언어 모델(LLM)의 출력이 변하는 비결정성 문제를 다룬다. 5개의 LLM을 8가지 일반적인 작업에 대해 10번 실행하여 제로샷 및 퓨샷 설정에서 비결정성을 조사했다. 그 결과, 자연 발생 실행 간 최대 15%의 정확도 변동과 최고 성능과 최저 성능 간 최대 70%의 차이를 발견했다. 어떤 LLM도 모든 작업에서 일관된 정확도를 제공하지 못했으며, 동일한 출력 문자열을 생성하지도 못했다. 연구진은 입력 버퍼에서 데이터를 혼합하여 컴퓨팅 자원을 효율적으로 사용하기 위해 비결정성이 필수적일 수 있다는 것을 발견했다. 비결정성을 정량화하기 위해 원시 출력에 대한 N번 실행의 총 일치율(TARr@N)과 구문 분석된 답변의 총 일치율(TARa@N)을 제시했다. 코드와 데이터는 공개적으로 제공된다.
시사점, 한계점
•
시사점: LLM의 비결정성이 예상보다 훨씬 광범위하며, 결과에 상당한 영향을 미칠 수 있음을 보여준다. LLM의 효율적인 컴퓨팅 자원 사용을 위해 비결정성이 중요한 역할을 할 수 있음을 시사한다. 비결정성을 정량화하기 위한 새로운 지표(TARr@N, TARa@N)를 제시하였다.
•
한계점: 특정 LLM과 작업에 국한된 연구 결과이므로 일반화에는 주의가 필요하다. 비결정성의 근본 원인에 대한 심층적인 분석이 부족하다. 제공된 코드와 데이터의 상세 내용이 부족하다.