본 논문은 대규모 언어 모델(LLM)의 안전성 및 보안 문제, 특히 유해 콘텐츠 생성 및 탈옥 공격에 대한 취약성을 해결하기 위해, 표현 기반 추상화를 활용한 모델 기반 분석 프레임워크 ReGA를 제안합니다. ReGA는 안전 관련 개념을 나타내는 저차원의 안전 중요 표현을 활용하여 LLM의 광대한 특징 공간에서 발생하는 확장성 문제를 해결합니다. 실험 결과, ReGA는 안전한 입력과 유해한 입력을 효과적으로 구분하며, 프롬프트 수준에서 0.975, 대화 수준에서 0.985의 AUROC를 달성했습니다. 또한, 실제 공격에 대한 강건성과 다양한 안전 관점에 대한 일반화 성능을 보이며, 해석성과 확장성 측면에서 기존의 안전 장치보다 우수한 성능을 보였습니다. ReGA는 모델 기반 추상화와 표현 엔지니어링을 통합하여 LLM의 안전성을 향상시키는 효율적이고 확장 가능한 솔루션으로, AI 안전을 위한 새로운 패러다임을 제시합니다.