본 논문은 기존 텍스트-이미지 확산 모델의 텍스트와 이미지 표현 간 불일치 문제를, 표현 정렬(representation alignment) 관점에서 재검토합니다. 기존의 score matching이나 flow matching loss를 최소화하는 방식 대신, 양성과 음성 쌍을 활용한 대조 학습(contrastive learning)을 통해 더 나은 정렬을 달성할 수 있다고 주장합니다. 이를 위해, 사전 학습된 모델에도 효율적으로 적용 가능한 경량 대조 미세 조정 전략인 SoftREPA를 제안합니다. SoftREPA는 소프트 텍스트 토큰을 사용하여, 1백만 개 미만의 학습 가능한 매개변수만 추가하면서 정렬을 개선합니다. 이론적 분석을 통해 SoftREPA가 텍스트와 이미지 표현 간 상호 정보를 명시적으로 증가시켜 의미 일관성을 향상시킨다는 것을 보여주고, 텍스트-이미지 생성 및 텍스트 기반 이미지 편집 작업에 대한 실험 결과를 통해 그 효과를 검증합니다.