본 논문은 기존 텍스트-이미지 생성 모델의 텍스트와 이미지 표현 간 미세한 불일치 문제를 해결하기 위해 표현 정렬 관점에서 접근합니다. 기존의 score matching 또는 flow matching loss를 최소화하는 방식 대신, 양성 및 음성 쌍을 활용한 대조 학습을 통해 더 나은 정렬을 달성하고자 합니다. 이를 위해 사전 학습된 모델에 적은 계산 비용으로 추가적인 학습 파라미터(1백만 미만)를 추가하는 경량 대조 미세 조정 전략인 SoftREPA를 제안합니다. SoftREPA는 소프트 텍스트 토큰을 사용하며, 이론적 분석을 통해 텍스트와 이미지 표현 간 상호 정보를 명시적으로 증가시켜 의미 일관성을 향상시킨다는 것을 보여줍니다. 텍스트-이미지 생성 및 텍스트 유도 이미지 편집 작업에 대한 실험 결과는 제안된 방법의 효과를 검증합니다.