본 논문은 단일 텍스트-이미지 확산 모델을 사용하여 추가적인 모델 비용 없이 새로운 작업을 학습하는 지속적 사후 훈련(continual post-training)에 대한 연구를 다룬다. 기존의 사후 훈련 방식은 사전 학습된 지식의 손실(forgetting)과 제로샷 조합성 저하 문제를 야기한다는 점을 지적하며, 이를 해결하기 위해 텍스트-이미지 모델의 지속적 사후 훈련을 위한 통합 벤치마크인 T2I-ConBench를 제안한다. T2I-ConBench는 아이템 사용자 정의 및 도메인 향상이라는 두 가지 실용적인 시나리오에 초점을 맞추고, 일반성 유지, 목표 작업 성능, 치명적 망각, 교차 작업 일반화의 네 가지 차원을 분석한다. 자동화된 지표, 인간 선호도 모델링, 비전-언어 QA를 결합하여 종합적인 평가를 수행하며, 세 가지 현실적인 작업 시퀀스에서 10가지 대표적인 방법을 벤치마킹한다. 그 결과 어떤 방법도 모든 측면에서 우수하지 않으며, 조인트 "오라클" 훈련조차 모든 작업에서 성공하지 못하고, 교차 작업 일반화는 여전히 해결되지 않은 문제임을 보여준다. 마지막으로, 모든 데이터셋, 코드 및 평가 도구를 공개하여 텍스트-이미지 모델의 지속적 사후 훈련 연구를 가속화한다.