본 논문은 기존의 next-token 예측 방식을 벗어나, 병렬 생성 능력과 편집 용이성을 가진 확산 기반 언어 모델의 한계점인 고정 길이 생성 문제를 해결하고자 한다. 이를 위해 동적이고 제어 가능한 semi-autoregressive 프레임워크인 CtrlDiff를 제안한다. CtrlDiff는 강화 학습을 사용하여 각 생성 블록의 크기를 지역적 의미에 따라 동적으로 결정하고, 재학습 없이 효율적인 사후 조건 지정을 가능하게 하는 분류기 기반 제어 메커니즘을 도입한다. 실험 결과, CtrlDiff는 하이브리드 확산 모델 분야에서 새로운 기준을 제시하고, 최첨단 autoregressive 접근 방식과의 성능 격차를 좁히며, 다양한 작업에서 효과적인 조건부 텍스트 생성을 가능하게 함을 입증했다.