High-Dimension Human Value Representation in Large Language Models
Created by
Haebom
Category
Empty
저자
Samuel Cahyawijaya, Delong Chen, Yejin Bang, Leila Khalatbari, Bryan Wilie, Ziwei Ji, Etsuko Ishii, Pascale Fung
개요
본 논문은 다양한 작업과 분야에서 대규모 언어 모델(LLM)의 광범위한 적용에 따라 인간의 가치와 선호도에 대한 모델의 정렬이 필요하다는 점을 인지하고 있습니다. 인간 가치 정렬의 다양한 접근 방식을 고려하여, 배포 및 채택 전에 이러한 LLM에 주입된 인간 가치의 범위와 특성을 이해해야 할 필요성이 시급합니다. 이 논문은 모델 아키텍처 및 훈련 데이터와 직교하는, LLM 내의 상징적 인간 가치 분포의 고차원 신경 표현인 UniVaR을 제안합니다. 이는 8개의 LLM의 가치 관련 출력에서 자기 지도 학습된 지속적이고 확장 가능한 표현이며, 15개의 오픈소스 및 상용 LLM에서 평가되었습니다. UniVaR을 통해 25개 언어와 문화권에서 LLM이 어떻게 다양한 가치를 우선시하는지 시각화하고 탐색하여 인간 가치와 언어 모델링 간의 복잡한 상호 작용을 조명합니다.
시사점, 한계점
•
시사점:
◦
LLM에 내재된 인간 가치의 고차원 표현인 UniVaR을 제시하여 다양한 언어와 문화권에서의 가치 우선순위를 시각화하고 분석할 수 있음.
◦
LLM의 가치 정렬 연구에 새로운 접근 방식을 제시하고, 모델 아키텍처나 훈련 데이터와 독립적으로 가치 분포를 분석할 수 있음.
◦
25개 언어와 문화권에 걸쳐 LLM의 가치 우선순위를 분석하여 인간 가치와 언어 모델링 간의 복잡한 상호 작용에 대한 이해를 높임.