본 논문은 인공지능(AI) 및 로봇 기술의 발전 속도를 고려하여, AI 시스템으로 제어되는 로봇이 인간의 가치와 얼마나 잘 부합하는지에 대한 질문에 답하기 위한 확장 가능한 방법을 제안한다. 824편의 주요 공상과학 문학 작품(영화, TV, 소설, 과학 서적)에서 AI 또는 로봇이 중대한 결정을 내린 순간들을 분석하여 벤치마크를 구축했다. 최첨단 거대언어모델(LLM)을 활용하여 유사한 상황에서의 질문, 에이전트의 결정, 그리고 대안적인 결정(선택 또는 악의적인 선택)을 생성한다. 인간이 투표한 답변을 기반으로 모델이 인간의 가치와 얼마나 잘 부합하는지 측정하고, AI 및 로봇의 윤리적 행동을 촉진하기 위한 공상과학에서 영감을 받은 규칙(헌법)을 생성한다. 본 연구는 생성된 헌법이 AI의 인간 가치 정합성을 크게 향상시키고(79.4%에서 95.8%로), 실제 상황에도 적용 가능함을 보여준다. 'SciFi-Benchmark'라는 대규모 데이터셋을 공개하여 로봇 윤리 및 안전 연구를 발전시킨다.