본 논문은 인간의 번영(Flourishing)과의 정렬을 평가하는 새로운 평가 프레임워크인 Flourishing AI Benchmark (FAI Benchmark)를 소개합니다. FAI Benchmark는 성격과 덕목, 긴밀한 사회적 관계, 행복과 삶의 만족도, 의미와 목적, 정신 및 신체 건강, 재정적 및 물질적 안정, 신앙과 영성 등 7가지 차원에 걸쳐 AI의 인간 번영과의 정렬을 평가합니다. 기존의 기술적 역량이나 피해 방지에 초점을 맞춘 벤치마크와 달리, FAI Benchmark는 모델이 이러한 차원에서 개인의 번영에 얼마나 효과적으로 기여하는지 측정합니다. 1,229개의 객관적 및 주관적 질문을 포함하는 포괄적인 방법론을 통해 LLM AI 시스템이 현재의 전체적인 인간 행복 모델과 얼마나 효과적으로 정렬되는지 평가합니다. 전문 심사 LLM과 차원 간 평가를 사용하고, 모든 번영 차원에서 균형 잡힌 성능을 보장하기 위해 기하 평균 점수를 사용합니다. 28개의 주요 언어 모델에 대한 초기 테스트 결과, 일부 모델은 전체적인 정렬에 근접하지만 (최고 점수 모델은 72/100 달성), 신앙과 영성, 성격과 덕목, 의미와 목적 부문에서 특히 모든 차원에서 허용 가능한 수준으로 정렬된 모델은 없음을 보여줍니다. 이 연구는 단순히 피해를 방지하는 것이 아니라 인간의 번영을 적극적으로 지원하는 AI 시스템을 개발하기 위한 프레임워크를 구축하여 AI 개발, 윤리 및 평가에 중요한 의미를 제공합니다.