Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Davi Bastos Costa, Felippe Alves, Renato Vicente

개요

본 논문은 대규모 언어 모델(LLM)이 사회적 맥락에서 어떻게 도덕적 판단을 표현하고 변화시키는지 분석한다. 이를 위해 LLM에게 특정 캐릭터를 가정하도록 프롬프팅하는 페르소나 역할극을 사용한다. 'Moral Foundations Questionnaire (MFQ)'를 사용하여, 페르소나 간 및 내에서 MFQ 점수의 변동성을 기반으로 도덕적 민감성과 도덕적 견고성을 정량화하는 벤치마크를 제시한다. 모델 계열이 도덕적 견고성에 가장 큰 영향을 미치며, 모델 크기는 체계적인 영향을 미치지 않는다는 것을 발견했다. Claude 계열이 가장 견고하고, Gemini 및 GPT-4 모델이 그 뒤를 이었다. 반면, 도덕적 민감성은 모델 계열 효과가 미미하지만, 계열 내에서 크기가 클수록 더 민감하게 나타났다. 또한 견고성과 민감성은 양의 상관관계를 보였으며, 이는 모델 계열 수준에서 더 두드러졌다. 페르소나 역할극이 없는 모델과 모델 전체에서 평균화된 페르소나에 대한 도덕적 기반 프로파일도 제시되었다.

시사점, 한계점

시사점:
LLM의 도덕적 행동이 모델 계열에 따라 크게 다르다는 것을 밝힘.
모델 크기보다는 모델 계열이 도덕적 견고성에 더 중요한 영향을 미침.
도덕적 민감성과 견고성이 양의 상관관계를 가짐.
페르소나 역할극이 LLM의 도덕적 행동에 미치는 영향을 체계적으로 분석.
한계점:
연구 범위가 특정 MFQ 설문 및 역할극에 제한됨.
다른 도덕적 평가 방법론에 대한 일반화 가능성 불확실.
모델 훈련 데이터 및 구조적 특성이 도덕적 행동에 미치는 영향에 대한 추가 분석 필요.
다양한 페르소나 유형 및 사회적 맥락에 대한 추가 연구 필요.
👍