The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

작성자

Haebom

카테고리

Empty

저자

Benjamin Minhao Chen, Xinyu Xie

💡 개요

본 논문은 AI 정렬 연구의 핵심 문제인 '누구의 도덕적 기대를 AI 의사결정에 반영해야 하는가'에 대한 질문을 던진다. 기존 연구와 달리, 인간 행위자, AI 시스템, 그리고 AI 설계자 간의 도덕적 판단이 어떻게 달라지는지를 실험을 통해 분석한다. 실험 결과, 인간과 로봇에 대한 평가는 유사했으나, 로봇의 행동이 인간 설계의 결과물로 설명될 때 참가자들은 훨씬 더 규칙 기반의 의무론적 추론을 보였으며, 이는 인간의 개입이 인지될 때 도덕적 제약이 강화됨을 시사한다.

🔑 시사점 및 한계

•

AI 시스템의 도덕적 판단 기준을 설정할 때, 단순한 인간의 행동 모방만으로는 부족하며 AI 설계자와 사용자 모두의 복합적인 도덕적 기대와 판단 기준을 고려해야 한다.

•

인간의 개입이 인지될 경우, AI 시스템이나 그 설계자에 대한 도덕적 평가는 더욱 엄격해지므로, AI 설계 과정에서 이러한 '인간 책임'에 대한 인식을 어떻게 다룰지가 중요해진다.

•

본 연구는 특정 시나리오를 기반으로 한 실험으로, 다양한 문화적 배경과 상황에 대한 일반화는 추가 연구가 필요하다. 또한, 참가자들의 구체적인 도덕적 추론 과정을 더 깊이 탐구할 필요가 있다.

PDF 보기

Made with Slashpage