Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Assessing Social Alignment: Do Personality-Prompted Large Language Models Behave Like Humans?

Created by
  • Haebom

저자

Ivan Zakazov, Mikolaj Boronski, Lorenzo Drudi, Robert West

개요

본 논문은 대규모 언어 모델(LLM)의 사회적 능력을 활용하는 다양한 응용 프로그램이 등장함에 따라, LLM의 성격 형성의 정확성이 중요해짐을 강조한다. 기존 연구들은 다양한 훈련 데이터와 프롬프트를 이용하여 LLM의 성격을 조절하려는 시도를 해왔다. 본 연구는 프롬프트를 통해 부여된 성격에 따라 LLM이 실제로 사회적 상황에서 일관된 행동을 보이는지, 그리고 그 행동을 세밀하게 조절할 수 있는지를 밀그램 실험과 최후통첩 게임을 이용하여 실험적으로 검증한다. 4개 공개 및 비공개 LLM을 대상으로 한 실험 결과, 모든 모델에서 프롬프트 기반 성격 조절의 실패 사례가 발견되었으며, 프롬프트 변경에도 이러한 실패는 지속되었다. 이는 LLM의 성격 프롬프팅에 대한 낙관적인 시각에 이의를 제기하는 결과이다.

시사점, 한계점

시사점: LLM의 성격 프롬프팅에 대한 기존의 낙관적인 전망에 대한 회의적인 시각 제시. LLM의 사회적 행동 조절의 어려움과 한계를 실험적으로 증명. 프롬프트 기반 성격 조절의 실패 모드를 다양한 모델에서 공통적으로 발견.
한계점: 실험에 사용된 LLM의 종류 및 버전에 대한 자세한 정보 부족. 실험 설계의 일반화 가능성에 대한 추가적인 검토 필요. 프롬프트 엔지니어링 기법의 다양성과 한계에 대한 심층적인 분석 부족.
👍