Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Operationalizing Pluralistic Values in Large Language Model Alignment Reveals Trade-offs in Safety, Inclusivity, and Model Behavior

Created by
  • Haebom
Category
Empty

저자

Dalia Ali, Dora Zhao, Allison Koenecke, Orestis Papakyriakopoulos

개요

본 연구는 인간 가치와 안전을 위해 인간 피드백을 사용하여 대규모 언어 모델(LLM)을 훈련할 때, 사회적 다양성이 종종 간과되는 문제를 다룹니다. 미국과 독일 참가자 (N = 1,095, 27,375개 평점)로부터 수집된 데이터를 바탕으로, LLM의 정렬 파이프라인에서 인구 통계학적 변동과 설계 매개변수가 LLM 행동에 미치는 영향을 체계적으로 평가합니다. 5가지 차원(유해성, 감성 인식, 민감성, 고정관념 편향, 유용성)에 대해 평점을 매겼으며, 다양한 사회 집단의 선호도를 사용하여 여러 LLM과 대규모 추론 모델을 미세 조정했습니다. 또한 평점 척도, 의견 불일치 처리 방법 및 최적화 기법을 다양하게 적용했습니다.

시사점, 한계점

시사점:
인구 통계학적 효과: 남성 참가자는 여성 참가자보다 응답을 18% 덜 유해하다고 평가했고, 보수 성향 및 흑인 참가자는 진보 성향 및 백인 참가자보다 응답의 감성 인식을 각각 27.9% 및 44% 더 높게 평가했습니다.
그룹별 선호도에 따라 미세 조정된 모델은 뚜렷한 행동을 보였습니다.
기술적 설계 선택의 영향: 평론가 의견 불일치를 보존하는 것이 다수결 투표보다 유해성 감소에 약 53% 더 효과적이었고, 5점 척도가 이진 형식보다 약 22% 더 효과적이었습니다.
Direct Preference Optimization (DPO)가 Multi-value optimization에서 Group Relative Policy Optimization (GRPO)보다 일관적으로 우수한 성능을 보였습니다.
한계점:
전문가 중심적 신호와 사용자 중심적 신호 사이의 균형을 맞추어 안전성과 공정한 표현을 보장하는 방법에 대한 질문에 대한 예비 단계 연구입니다.
👍