Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dropouts in Confidence: Moral Uncertainty in Human-LLM Alignment

Created by
  • Haebom
Category
Empty

저자

Jea Kwon, Luiz Felipe Vecchietti, Sungwon Park, Meeyoung Cha

개요

인간은 도덕적 딜레마에 직면했을 때 상당한 불확실성을 나타내지만, 기계와 AI 에이전트의 이러한 불확실성은 제대로 탐구되지 않았다. 이 연구는 32개의 오픈 소스 모델과 9개의 도덕적 차원에서 불확실성이 고전적인 트롤리 문제에서 도덕적 결정에 미치는 영향을 조사한다. 모델 아키텍처 및 훈련 방법론에 따라 불확실성이 주로 결정됨을 발견했으며, 이진 엔트로피를 불확실성 측정 지표로 사용했다. 모델에 "dropout"을 통해 확률성을 도입하여 상호 정보 증가를 통해 전체 엔트로피를 증가시키고, 조건부 엔트로피는 거의 변하지 않음을 확인했다. 이 메커니즘은 상호 정보와 정렬 점수 이동의 상관관계와 함께 인간-LLM 도덕적 정렬을 크게 개선했다. 이 연구는 불확실성을 의도적으로 조절하여 모델 생성 결정과 인간 선호도를 더 잘 정렬할 수 있음을 보여준다.

시사점, 한계점

모델 아키텍처 및 훈련 방법이 도덕적 불확실성에 큰 영향을 미친다.
이진 엔트로피를 불확실성 측정 지표로 활용하여 불확실성을 정량화한다.
"dropout"을 통한 확률성 도입은 전체 엔트로피를 증가시키고 인간-LLM 도덕적 정렬을 개선한다.
불확실성 조절을 통해 모델 생성 결정과 인간 선호도의 정렬 가능성을 보여준다.
구체적인 한계점은 논문에서 명시되지 않음.
👍