현대 신경망 모델은 이미지 및 비디오와 같은 공유 데이터 도메인에 대해 풍부한 사전 지식과 상호 보완적인 지식을 가지고 있습니다. 시각적 생성 모델, 시각 언어 모델, 그래픽 엔진 및 물리 시뮬레이터와 같은 인간이 만든 지식을 가진 소스를 포함한 여러 소스에서 다양한 지식을 통합하는 연구는 아직 충분히 이루어지지 않았습니다. 본 논문에서는 서로 다른 모델로부터 추론 시간에 지식을 구성하는 Product of Experts (PoE) 프레임워크를 제안합니다. 이 학습 없는 접근 방식은 Annealed Importance Sampling (AIS)을 통해 전문가 간의 곱 분포에서 샘플링합니다. 본 프레임워크는 이미지 및 비디오 합성에 대한 실질적인 이점을 보여주며, 단일 모델보다 더 나은 제어 능력을 제공하고 시각적 생성 목표를 지정하기 위한 유연한 사용자 인터페이스를 제공합니다.