Sign In

Enough Coin Flips Can Make LLMs Act Bayesian

Created by
  • Haebom
Category
Empty

저자

Ritwik Gupta, Rodolfo Corona, Jiaxin Ge, Eric Wang, Dan Klein, Trevor Darrell, David M. Chan

개요

본 논문은 대규모 언어 모델(LLMs)의 컨텍스트 내 학습(ICL) 능력이 베이지안 프레임워크와 일치하는 구조적 추론을 수행하는지, 아니면 패턴 매칭에 의존하는지 조사한다. 편향된 동전 던지기라는 통제된 설정을 사용하여, (1) LLMs는 종종 편향된 사전 확률을 가지며, 제로샷 설정에서 초기 차이를 야기하고, (2) 컨텍스트 내 증거가 명시적인 편향 지시보다 우선하며, (3) LLMs는 대체로 베이지안 사후 확률 업데이트를 따르지만, 그 차이는 주로 잘못 보정된 사전 확률 때문이며, 잘못된 업데이트 때문은 아니고, (4) 주의 크기는 베이지안 추론에 미미한 영향을 미친다는 것을 발견했다. 충분한 편향된 동전 던지기 데모를 ICL을 통해 제공하면, LLMs는 베이지안 방식으로 사전 확률을 업데이트한다.

시사점, 한계점

시사점: LLMs의 ICL 능력이 베이지안 추론과 상당히 일치하며, 충분한 컨텍스트 내 증거를 통해 사전 확률을 업데이트할 수 있음을 보여준다. LLMs의 추론 과정에 대한 이해를 심화시키고, 더욱 효율적인 모델 개발 및 활용에 기여할 수 있다.
한계점: 실험 설정이 편향된 동전 던지기로 제한되어 있으며, 더욱 복잡하고 다양한 작업에 대한 일반화 가능성은 추가 연구가 필요하다. 사전 확률의 보정 문제가 베이지안 추론의 정확성에 영향을 미치는 요인으로 확인되었으나, 이를 개선하는 구체적인 방법론에 대한 제시는 부족하다. 주의 메커니즘의 역할에 대한 추가적인 분석이 필요하다.
👍