Atlas-Alignment는 안전하고 신뢰할 수 있으며 제어 가능한 언어 모델 구축에 필수적인 해석 가능성을 개선하기 위해, 모델별 희소 오토인코더의 비용이 많이 드는 훈련, SAE 구성 요소의 수동 또는 반자동 레이블링 및 검증 없이, 공유 입력 및 가벼운 표현 정렬 기술만 사용하여 알려지지 않은 잠재 공간을 레이블이 지정된 인간-해석 가능 잠재 공간인 개념 아틀라스에 정렬하는 프레임워크입니다. 이로써 의미론적 특징 검색 및 검색과 인간-해석 가능한 아틀라스 개념에 따른 생성 제어라는 두 가지 주요 기능이 이전에 불투명했던 모델에서 가능해집니다.