SafeVision은 디지털 미디어의 안전성을 강화하기 위해 개발된 이미지 가드레일 모델입니다. 기존 모델의 한계점을 극복하고자 인간과 유사한 추론 능력을 통합하여, 적응성과 투명성을 높였습니다. 효과적인 데이터 수집 및 생성 프레임워크, 정책 준수 훈련 파이프라인, 맞춤형 손실 함수, 그리고 다양한 질문-응답 생성 및 훈련 전략을 활용합니다. SafeVision은 재훈련 없이 진화하는 안전 정책에 동적으로 맞춰지며, 정확한 위험 평가와 설명을 제공합니다. 또한, 기존 유해 이미지 벤치마크의 한계를 해결하기 위해 VisionHarm 데이터셋(VisionHarm-T, VisionHarm-C)을 도입했습니다. 실험 결과, SafeVision은 다양한 벤치마크에서 뛰어난 성능을 보였으며, GPT-4o보다 훨씬 빠른 속도를 자랑합니다.