Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

High-Dimension Human Value Representation in Large Language Models

Created by
  • Haebom

저자

Samuel Cahyawijaya, Delong Chen, Yejin Bang, Leila Khalatbari, Bryan Wilie, Ziwei Ji, Etsuko Ishii, Pascale Fung

개요

본 논문은 다양한 작업과 분야에서 대규모 언어 모델(LLM)의 광범위한 적용에 따라 인간의 가치와 선호도에 대한 모델의 정렬이 필요하다는 점을 인지하고 있습니다. 인간 가치 정렬의 다양한 접근 방식을 고려하여, 배포 및 채택 전에 이러한 LLM에 주입된 인간 가치의 범위와 특성을 이해해야 할 필요성이 시급합니다. 이 논문은 모델 아키텍처 및 훈련 데이터와 직교하는, LLM 내의 상징적 인간 가치 분포의 고차원 신경 표현인 UniVaR을 제안합니다. 이는 8개의 LLM의 가치 관련 출력에서 자기 지도 학습된 지속적이고 확장 가능한 표현이며, 15개의 오픈소스 및 상용 LLM에서 평가되었습니다. UniVaR을 통해 25개 언어와 문화권에서 LLM이 어떻게 다양한 가치를 우선시하는지 시각화하고 탐색하여 인간 가치와 언어 모델링 간의 복잡한 상호 작용을 조명합니다.

시사점, 한계점

시사점:
LLM에 내재된 인간 가치의 고차원 표현인 UniVaR을 제시하여 다양한 언어와 문화권에서의 가치 우선순위를 시각화하고 분석할 수 있음.
LLM의 가치 정렬 연구에 새로운 접근 방식을 제시하고, 모델 아키텍처나 훈련 데이터와 독립적으로 가치 분포를 분석할 수 있음.
25개 언어와 문화권에 걸쳐 LLM의 가치 우선순위를 분석하여 인간 가치와 언어 모델링 간의 복잡한 상호 작용에 대한 이해를 높임.
한계점:
UniVaR의 훈련에 사용된 LLM의 수와 종류가 제한적일 수 있음.
가치의 정의와 측정에 대한 주관성이 존재할 수 있음.
UniVaR이 모든 종류의 가치 편향을 완벽하게 포착한다고 단정할 수 없음.
평가에 사용된 15개의 LLM이 다양한 측면을 충분히 대표하는지에 대한 검토 필요.
👍