Tracing Moral Foundations in Large Language Models

작성자

Haebom

카테고리

Empty

저자

Chenxiao Yu, Bowen Yi, Farzan Karimi-Malekabadi, Suhaib Abdurahman, Jinyi Ye, Shrikanth Narayanan, Yue Zhao, Morteza Dehghani

💡 개요

본 연구는 대규모 언어 모델(LLM)이 인간과 유사한 도덕적 판단을 생성하는 것이 진정한 도덕적 이해인지, 아니면 피상적인 모방인지를 규명하기 위해 도덕 기반 이론(MFT)을 분석 프레임워크로 사용합니다. 14개의 다양한 LLM을 대상으로 계층별 분석, 사전 학습된 희소 자동 인코더(SAE), 인과적 조종 기법을 결합하여 도덕적 기반이 어떻게 인코딩되고 조직되며 표현되는지를 조사했습니다. 연구 결과, LLM은 인간의 도덕적 판단과 일치하는 방식으로 도덕적 기반을 표현하고 구분하며, 이러한 도덕적 구조는 사전 학습에서 자연스럽게 발생하고 사후 훈련에 의해 선택적으로 재구성됨을 발견했습니다.

🔑 시사점 및 한계

•

LLM은 인간의 도덕적 판단과 유사한 방식으로 도덕적 기반을 내재화하고 조직화할 수 있으며, 이는 단순한 피상적 모방을 넘어설 수 있음을 시사합니다.

•

희소 자동 인코더(SAE)를 통해 특정 도덕적 기반과 관련된 부분적으로 분리된(disentangled) 특징을 식별할 수 있어, LLM 내부의 도덕적 개념 표현에 대한 더 깊은 이해를 제공합니다.

•

인과적 조종 실험은 내부 표현과 도덕적 출력 사이의 직접적인 인과 관계를 명확히 보여주며, LLM의 도덕적 행동을 이해하고 제어할 수 있는 가능성을 제시합니다.

•

본 연구에서 사용된 MFT 프레임워크는 도덕성을 포괄적으로 설명하는 데 한계가 있을 수 있으며, LLM의 도덕적 이해가 실제 인간의 도덕적 추론 및 의사 결정 과정을 완전히 반영한다고 보기는 어렵습니다. 향후 연구에서는 더 다양한 도덕 이론 및 맥락에서의 LLM 도덕성 탐구가 필요합니다.

PDF 보기

Made with Slashpage