MENTOR는 효율적인 다중 모드 조건 조정을 위한 새로운 자기회귀(AR) 프레임워크로, 복잡한 다중 모드 이미지 생성을 위한 광범위한 훈련 없이도 정밀한 시각적 제어와 다중 모드 입력의 균형을 맞추는 데 어려움을 겪는 기존 텍스트-이미지 모델의 한계를 해결합니다. 두 단계 훈련 과정(다중 모드 정렬 단계와 다중 모드 지시 조정 단계)을 통해 보조 어댑터나 크로스 어텐션 모듈에 의존하지 않고도 다중 모드 입력과 이미지 출력 간의 세밀한 토큰 수준 정렬을 가능하게 합니다. 제한된 모델 크기와 훈련 자원에도 불구하고, DreamBench++ 벤치마크에서 경쟁 기준 모델보다 개념 보존 및 프롬프트 따르기 성능이 뛰어나며, 확산 기반 방법보다 우수한 이미지 재구성 충실도, 광범위한 작업 적응성 및 향상된 훈련 효율성을 제공합니다.