This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
Operationalizing Pluralistic Values in Large Language Model Alignment Reveals Trade-offs in Safety, Inclusivity, and Model Behavior
Created by
Haebom
Category
Empty
저자
Dalia Ali, Dora Zhao, Allison Koenecke, Orestis Papakyriakopoulos
개요
본 연구는 인간의 사회적 다양성을 고려하지 않고 훈련된 LLM의 한계를 지적하며, 복수 가치관을 통합하는 방법론을 제시한다. 미국과 독일의 1,095명의 참가자로부터 수집된 데이터를 바탕으로, LLM 응답을 독성, 감성 인식, 민감성, 고정관념 편향, 유용성 등 5가지 차원에서 평가했다. 다양한 사회 집단의 선호도를 활용하여 LLM을 미세 조정하고, 평가 척도, 의견 불일치 처리 방법, 최적화 기법을 다양하게 적용하여 그 영향을 분석했다.
시사점, 한계점
•
시사점:
◦
LLM의 정렬 과정에서 사회적 집단에 따라 선호도가 다름을 확인.
◦
성별, 정치적 성향, 인종에 따라 응답 평가에 유의미한 차이가 나타남.
◦
그룹별 선호도에 따라 미세 조정된 모델은 뚜렷한 차이를 보임.
◦
평가 척도, 불일치 처리 방법, 최적화 기법 등 기술적 선택이 모델 행동에 큰 영향을 미침.