본 논문은 급속히 발전하는 AI 시스템의 안전성 확보와 거버넌스 방안 마련을 위해, 기존의 성능 벤치마크를 넘어선 새로운 평가 방법론을 제시하는 리뷰 논문입니다. AI 안전성 평가를 '측정하는 속성', '측정 방법', '평가 결과의 거버넌스 통합' 세 가지 차원으로 체계적으로 분류하고, 모델의 극한 상황에서의 능력(capabilities), 기본적인 행동 경향(propensities), 적대적 AI 공격에 대한 안전성 유지(control) 측정을 강조합니다. 사이버 보안 위협, 기만, 자율 복제, 상황 인식 등 안전에 중요한 능력과 권력 추구, 음모 등 우려되는 행동 경향을 자세히 설명하고, 스캐폴딩, 레드 티밍, 감독적 미세 조정과 같은 행동 분석 기법과 표현 분석, 기계적 해석 가능성과 같은 내부 분석 기법을 활용한 측정 방법을 제시합니다. 또한, 능력 부재 증명의 어려움, 모델의 '샌드백' 현상, '안전 워싱' 유인 등 평가의 어려움과 함께 유망한 연구 방향을 제시하며, 산발적인 연구들을 종합하여 AI 안전성 평가에 대한 중추적인 참고 자료를 제공하고자 합니다.