High-Dimension Human Value Representation in Large Language Models
Created by
Haebom
저자
Samuel Cahyawijaya, Delong Chen, Yejin Bang, Leila Khalatbari, Bryan Wilie, Ziwei Ji, Etsuko Ishii, Pascale Fung
개요
본 논문은 다양한 작업과 분야에서 대규모 언어 모델(LLM)의 광범위한 적용에 따라 인간의 가치와 선호도에 대한 모델의 정렬이 필요하다는 점을 인지하고 있습니다. 인간 가치 정렬의 다양한 접근 방식을 고려하여, 배포 및 채택 전에 이러한 LLM에 주입된 인간 가치의 범위와 특성을 이해해야 할 필요성이 시급합니다. 이 논문은 모델 아키텍처 및 훈련 데이터와 직교하는, LLM 내의 상징적 인간 가치 분포의 고차원 신경 표현인 UniVaR을 제안합니다. 이는 8개의 LLM의 가치 관련 출력에서 자기 지도 학습된 지속적이고 확장 가능한 표현이며, 15개의 오픈소스 및 상용 LLM에서 평가되었습니다. UniVaR을 통해 25개 언어와 문화권에서 LLM이 어떻게 다양한 가치를 우선시하는지 시각화하고 탐색하여 인간 가치와 언어 모델링 간의 복잡한 상호 작용을 조명합니다.
시사점, 한계점
•
시사점:
◦
LLM에 내재된 인간 가치의 고차원 표현인 UniVaR을 제시하여 다양한 언어와 문화권에서의 가치 우선순위를 시각화하고 분석할 수 있음.
◦
LLM의 가치 정렬 연구에 새로운 접근 방식을 제시하고, 모델 아키텍처나 훈련 데이터와 독립적으로 가치 분포를 분석할 수 있음.
◦
25개 언어와 문화권에 걸쳐 LLM의 가치 우선순위를 분석하여 인간 가치와 언어 모델링 간의 복잡한 상호 작용에 대한 이해를 높임.