본 논문은 생성 모델의 평가 기준으로 '생산성(producibility)'뿐 아니라 '조종성(steerability)'을 제시합니다. 생산성은 모델이 생성할 수 있는 출력의 질과 범위를 평가하는 반면, 조종성은 특정 목표를 가진 사용자가 원하는 출력을 생성할 수 있는지를 평가합니다. 조종성 평가의 어려움을 해결하기 위해, 생성 모델의 출력을 사용자에게 재현하게 하는 벤치마크 작업을 설계하고, 대규모 사용자 연구를 통해 텍스트-이미지 모델과 대규모 언어 모델의 조종성을 평가했습니다. 결과적으로, 기존 모델들은 높은 생산성에도 불구하고 조종성이 낮았으며, 강화 학습 기법을 통해 이미지 모델의 조종성을 두 배 이상 향상시킬 수 있음을 보였습니다.