Alignment Makes Language Models Normative, Not Descriptive

Author

Haebom

저자

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

💡 개요

본 연구는 언어 모델의 후처리 정렬(alignment)이 인간 선호도에 맞춰 모델을 최적화하는 것이지, 실제 인간 행동을 모델링하는 것과는 다르다는 것을 보여줍니다. 120개의 기본-정렬 모델 쌍을 다중 라운드 전략 게임에서 10,000건 이상의 실제 인간 결정과 비교한 결과, 기본 모델이 정렬 모델보다 인간 선택 예측에서 거의 10배 더 우수함을 발견했습니다. 이는 모델이 인간 사용에 최적화될 때, 인간 행동을 그대로 반영하는 데는 한계가 있음을 시사합니다.

🔑 시사점 및 한계

•

언어 모델의 '정렬'은 인간 선호도를 따르도록 만드는 과정으로, 실제 인간 행동을 설명하거나 예측하는 능력과는 분리되어 이해해야 합니다.

•

정렬된 모델은 합리적인 규범적 행동이 예상되는 단기적 또는 비전략적 상황에서는 인간 행동 예측에 더 능숙하지만, 상호작용과 역사에 기반한 복잡한 전략적 상황에서는 예측 능력이 저하됩니다.

•

본 연구는 언어 모델을 인간 사용에 최적화하는 것과 인간 행동의 프록시로 사용하는 것 사이에 근본적인 상충 관계가 존재함을 드러냈으며, 이는 향후 언어 모델 개발 및 활용 방향에 대한 중요한 고려 사항을 제시합니다.

PDF 보기

Made with Slashpage