# Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models

### 저자

Haoran Ye, Tianze Zhang, Yuhang Xie, Liyuan Zhang, Yuanyi Ren, Xin Zhang, Guojie Song

### 개요

본 논문은 대규모 언어 모델(LLM)의 내재적 가치를 심리학적으로 이해하고 평가하며 정렬하기 위한 새로운 방법론인 생성 심리 어휘 접근법(GPLA)을 제시한다.  GPLA를 활용하여 LLM에 맞춤화된 5요소 가치 시스템을 제안하고, 심리학적 원리와 최첨단 AI 우선순위를 통합한 세 가지 벤치마킹 작업을 통해 제안된 가치 시스템의 유효성을 검증한다.  기존의 Schwartz 가치 시스템과 비교하여 제안된 가치 시스템이 LLM 가치를 더 잘 포착하고, LLM 안전성 예측을 개선하며, LLM 정렬을 향상시킨다는 결과를 보여준다.

### 시사점, 한계점

- **시사점:**

    - LLM의 가치 시스템을 심리학적으로 탐구하고 모델링하는 새로운 접근법(GPLA)을 제시.

    - 기존 가치 시스템보다 LLM 가치를 더 잘 반영하는 새로운 5요소 가치 시스템을 제안.

    - 제안된 가치 시스템이 LLM 안전성 예측 및 정렬 향상에 기여함을 실험적으로 검증.

    - LLM 개발 및 안전성 연구에 대한 심리학적 기반 제공.

- **한계점:**

    - 제안된 5요소 가치 시스템의 일반화 가능성에 대한 추가 연구 필요.

    - 다양한 LLM 아키텍처 및 데이터셋에 대한 적용성 검증 필요.

    - GPLA의 확장성 및 적용 가능성에 대한 더 폭넓은 실험적 검증 필요.

    - LLM의 가치 정렬에 대한 윤리적 함의에 대한 추가 논의 필요.

[PDF 보기](https://arxiv.org/pdf/2502.02444)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
