本論文は、事前に訓練されたオーディオ生成モデルを活用して、映像とセマンティック、時間的に整列した高品質オーディオを合成するポリ合成(Foley synthesis)に焦点を当てています。従来のControlNetベースのポリ合成方法が手作業で作成した時間条件に依存する限界を克服するために、本論文では、事前訓練されたSpecMaskGITモデルにControlNetを適用するSpecMaskFoley方法を提案します。特に、画像の時間的特徴とSpecMaskGITモデルの時間 - 周波数特性との間の不整合を解決するために、周波数認識時間的特徴整列器を使用して単一のControlNet分岐を効果的に利用する。その結果、SpecMaskFoleyは従来のfrom-scratchモデルと比較してパフォーマンスの向上を示し、ControlNetベースのポリ合成モデルの開発に大きく貢献しています。