본 논문은 비전-언어-행동(VLA) 모델 구축을 위한 주요 패러다임으로 부상한 확산 정책(Diffusion policies)의 훈련 효율성 문제를 다룬다. 조건부 확산 정책 훈련에서 생성 조건을 구분하기 어려울 때 손실 함수가 주변 행동 분포를 모델링하는 것으로 퇴화되는 '손실 붕괴(loss collapse)' 현상을 규명하고, 이를 해결하기 위해 조건에 따라 소스 분포를 수정하는 Cocos라는 간단하면서도 일반적인 방법을 제안한다. Cocos는 조건 입력에서 추출한 의미를 중심으로 소스 분포를 고정하여 조건 통합을 강화하고 손실 붕괴를 방지한다. 시뮬레이션과 실제 환경 벤치마크에 대한 광범위한 실험 결과를 통해 기존 방법보다 빠른 수렴과 높은 성공률을 달성하며, 훨씬 적은 기울기 단계와 매개변수를 사용하여 대규모 사전 훈련된 VLA의 성능과 일치함을 보여준다. Cocos는 경량이며 구현이 용이하고 다양한 정책 아키텍처와 호환 가능한 범용적인 확산 정책 훈련 개선 방법이다.