Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life

Created by
  • Haebom
Category
Empty

저자

Yu Ying Chiu, Liwei Jiang, Yejin Choi

개요

본 논문은 일상생활에서 마주치는 1,360개의 도덕적 딜레마를 담은 DailyDilemmas 데이터셋을 제시합니다. 각 딜레마는 두 가지 행동 방안과 영향받는 당사자, 각 행동과 관련된 인간의 가치를 제시합니다. 이를 바탕으로 다양한 일상 주제(대인 관계, 직장, 환경 문제 등)를 아우르는 인간 가치 저장소를 구축하고, LLM이 이러한 딜레마에서 어떤 행동을 선택하고, 그 선택이 어떤 가치를 반영하는지 평가합니다. 세계 가치 조사, 도덕적 기반 이론, 매슬로우의 욕구 단계 이론, 아리스토텔레스의 덕, 플루치크의 감정의 바퀴 등 5가지 이론적 틀을 통해 가치를 분석하여, LLM이 세계 가치 조사에서는 생존보다 자기 표현에, 도덕적 기반 이론에서는 충성심보다 배려에 더 부합하는 경향을 보이는 것을 발견합니다. 또한, 모델 간 핵심 가치에 대한 상당한 차이를 발견하고(예: Mixtral-8x7B는 진실성을 9.7% 무시하는 반면 GPT-4-turbo는 9.4% 선택), OpenAI(ModelSpec)와 Anthropic(Constitutional AI)의 가이드라인이 일상생활의 미묘한 도덕적 추론 상황에서 모델의 실제 가치 우선순위를 어떻게 반영하는지 분석하고, 최종적으로 사용자가 시스템 프롬프트를 사용하여 이러한 우선순위를 효과적으로 조정할 수 없음을 발견합니다.

시사점, 한계점

시사점:
일상생활의 도덕적 딜레마를 다룬 새로운 데이터셋 DailyDilemmas 제공
LLM의 가치 우선순위 및 도덕적 추론 능력에 대한 심층적 분석
다양한 이론적 틀을 활용한 LLM 가치 평가의 새로운 접근 방식 제시
LLM의 가치 편향 및 한계를 밝히고, 윤리적 개발 및 배포를 위한 시사점 제공
사용자 프롬프트를 통한 LLM 가치 조정의 어려움을 증명
한계점:
DailyDilemmas 데이터셋의 규모(1,360개)가 상대적으로 작을 수 있음
분석에 사용된 LLM 모델의 종류 및 버전이 제한적일 수 있음
사용자 프롬프트를 통한 가치 조정에 대한 추가적인 연구 필요
다양한 문화적 배경을 고려한 가치 분석의 한계
👍