본 논문은 중국 요리 이미지 생성에 특화된 최초의 텍스트-이미지 생성 모델인 Omni-Dish를 제안합니다. 기존 모델들이 특정 도메인, 특히 중국 요리의 다양한 특징과 세부 사항을 정확하게 포착하는 데 어려움을 겪는다는 점을 해결하기 위해, 대규모 중국 요리 데이터셋을 구축하고, 재캡션 전략과 coarse-to-fine 학습 방식을 도입하여 세부적인 요리적 특징을 학습하도록 설계되었습니다. 추론 단계에서는 고품질 캡션 라이브러리와 대규모 언어 모델을 활용하여 사용자의 텍스트 입력을 개선함으로써 더욱 사실적인 이미지 생성을 가능하게 합니다. 또한, Concept-Enhanced P2P 기반의 요리 편집 모델을 제시하여 요리 편집 작업까지 지원합니다. 실험 결과, 제안된 방법의 우수성을 입증합니다.