본 논문은 기존 텍스트-이미지 확산 모델의 텍스트와 이미지 표현 간의 정렬 문제를 해결하기 위해, 대조 학습 기반의 표현 정렬 방법인 SoftREPA를 제안합니다. 기존의 점수 매칭이나 흐름 매칭 손실 최소화 방식 대신, 기존 데이터셋을 양성 및 음성 쌍으로 활용하여 대조 학습을 통해 더 나은 정렬을 달성합니다. SoftREPA는 사전 훈련된 모델에 1백만 개 미만의 학습 가능한 매개변수만 추가하여 연산 비용을 최소화하면서 소프트 텍스트 토큰을 활용하여 표현 정렬을 개선합니다. 이론적 분석을 통해 본 방법이 텍스트와 이미지 표현 간의 상호 정보를 명시적으로 증가시켜 의미 일관성을 향상시킨다는 것을 보여줍니다. 텍스트-이미지 생성 및 텍스트 유도 이미지 편집 작업에 대한 실험 결과는 제안된 방법의 효과를 검증합니다.