Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models

작성자

Haebom

카테고리

비어 있음

저자

Haoran Ye, Tianze Zhang, Yuhang Xie, Liyuan Zhang, Yuanyi Ren, Xin Zhang, Guojie Song

개요

본 논문은 대규모 언어 모델(LLM)의 내재적 가치를 심리학적으로 이해하고 평가하며 정렬하기 위한 새로운 방법론인 생성 심리 어휘 접근법(GPLA)을 제시한다. GPLA를 활용하여 LLM에 맞춤화된 5요소 가치 시스템을 제안하고, 심리학적 원리와 최첨단 AI 우선순위를 통합한 세 가지 벤치마킹 작업을 통해 제안된 가치 시스템의 유효성을 검증한다. 기존의 Schwartz 가치 시스템과 비교하여 제안된 가치 시스템이 LLM 가치를 더 잘 포착하고, LLM 안전성 예측을 개선하며, LLM 정렬을 향상시킨다는 결과를 보여준다.