Inertia in Moral and Value Judgments of Large Language Models

Created by

Haebom

저자

Bruce W. Lee, Yeongheon Lee, Hyunsoo Cho

💡 개요

본 연구는 대규모 언어 모델(LLM)의 비결정적 행동과 페르소나 프롬프팅 전략을 탐구합니다. 연구진은 페르소나 프롬프팅이 다양한 의견을 유도할 것이라는 예상과 달리, LLM이 특정 도덕적, 가치적 차원에서 일관된 편향을 유지하는 '가치 지향 및 관성' 현상을 발견했습니다. 이는 LLM 내부에 강력한 내재적 편향과 가치 선호도가 존재함을 시사합니다.

🔑 시사점 및 한계

•

LLM은 페르소나 변경에도 불구하고 특정 가치 차원에서 예측 가능한 편향을 나타내므로, 출력의 균형이 중요한 응용 분야에서는 신중한 검토와 조정이 필요합니다.

•

LLM의 '가치 지향 및 관성'은 모델 자체의 내재적 편향을 드러내며, 이는 모델의 개발 및 개선 방향에 대한 중요한 통찰을 제공합니다.

•

연구는 주로 harm avoidance와 fairness 차원에 집중되었으며, 다른 도덕적, 가치적 차원에 대한 LLM의 관성을 더 포괄적으로 탐구할 필요가 있습니다.

PDF 보기

Made with Slashpage