Sign In

PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment

Created by
  • Haebom
Category
Empty

저자

Anthony Diamond

개요

본 논문은 인공지능 정렬 문제, 특히 상충하는 인간 가치와 명세 조작과 같은 지속적인 과제를 해결하기 위한 다중 관점 프레임워크인 PRISM(Perspective Reasoning for Integrated Synthesis and Mediation)을 제안한다. 인지 과학과 도덕 심리학에 기반한 PRISM은 도덕적 우려를 생존 중심 반사 작용부터 고차원 통합적 관점까지 아우르는 7가지 '기본 세계관'으로 구성하여 인간 도덕 인지의 독립적인 차원을 포착한다. 그런 다음 파레토 최적화 방식을 적용하여 상반되는 우선순위를 단일 지표로 축소하지 않고 조정한다. 견고한 사용을 위한 신뢰할 수 있는 맥락 검증을 전제로, 이 프레임워크는 관점별 응답을 유도하고, 이를 균형 잡힌 결과로 통합하며, 남아 있는 갈등을 투명하고 반복적인 방식으로 중재하는 구조화된 워크플로우를 따른다. 인지 과학, 도덕 심리학 및 신경 과학의 계층적 도덕 인지 접근 방식을 참조하여 PRISM은 서로 다른 도덕적 동기가 어떻게 상호 작용하고 체계적으로 윤리적 절충을 문서화하고 중재하는지 명확히 한다. 작동하는 프로토타입이 생성한 실제 출력을 통해 효과를 보여주며, 공중 보건 정책, 직장 자동화 및 교육과 같은 분야의 고전적인 정렬 문제에 PRISM을 적용한다. 인간의 관점에 AI 숙고를 고정함으로써 PRISM은 비인간적이거나 기계 중심적인 영역으로 이동할 수 있는 해석적 도약을 제한하고자 한다. 실제 배포 및 공식 검증을 포함한 미래 방향을 간략하게 설명하면서 다중 관점 종합 및 갈등 중재에 대한 핵심 초점을 유지한다.

시사점, 한계점

시사점:
상충하는 인간 가치와 명세 조작 문제를 해결하기 위한 새로운 다중 관점 프레임워크 제시
인지 과학 및 도덕 심리학에 기반한 7가지 기본 세계관을 통해 인간 도덕 인지의 다양한 측면을 포착
파레토 최적화 방식을 통해 상반되는 우선순위를 효과적으로 조정
실제 프로토타입을 통해 다양한 분야에서의 적용 가능성을 입증
인간 중심 관점을 강조하여 비인간적 또는 기계 중심적 해석을 방지
한계점:
신뢰할 수 있는 맥락 검증에 대한 가정이 필요
실제 세계 배포 및 공식 검증에 대한 추가적인 연구 필요
7가지 기본 세계관의 포괄성 및 적용 가능성에 대한 추가적인 검증 필요
👍