Yunzhi Zhang, Carson Murtuza-Lanier, Zizhang Li, Yilun Du, Jiajun Wu
概要
現代ニューラルネットワークモデルは、画像やビデオなどの共有データドメインに関する豊富な事前知識と相補的な知識を持っています。ビジュアル生成モデル、ビジュアル言語モデル、グラフィックエンジン、物理シミュレータなど、人間が作成した知識を持つソースなど、さまざまなソースからさまざまな知識を統合する研究はまだ十分に行われていません。この論文では、異なるモデルから推論時間に知識を構成するProduct of Experts(PoE)フレームワークを提案します。この学習のないアプローチは、Annealed Importance Sampling(AIS)を介して専門家間の積分布からサンプリングします。このフレームワークは、画像とビデオの合成の実質的な利点を示しており、単一のモデルよりも優れた制御能力を提供し、視覚的生成目標を指定するための柔軟なユーザーインターフェースを提供します。
Takeaways、Limitations
•
Takeaways:
◦
さまざまなモデルからの知識を統合する新しいフレームワーク提案(Product of Experts)。