MIRROR는 개인화된 멀티턴 대화에서 사용자의 안전 관련 맥락을 유지하고, 아첨하는 경향을 억제하며, 사용자 안전을 우선시하는 방식으로 유해한 추천을 방지하는 모듈형 아키텍처입니다. 듀얼 프로세스 이론에서 영감을 얻어, 즉각적인 응답 생성(Talker)과 비동기적인 심사숙고 처리(Thinker)로 구성됩니다. CuRaTe 안전 벤치마크에서 MIRROR는 다양한 모델에서 21% 상대적 향상을 보였으며, 오픈 소스 모델이 상업용 모델을 능가하는 결과를 보였습니다.