[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SpecMaskFoley: Steering Pretrained Spectral Masked Generative Transformer Toward Synchronized Video-to-audio Synthesis via ControlNet

Created by
  • Haebom

作者

ジチョン、アキラタカハシ、シュヤンクイ、キースケトヤマ、シュウケタカハシ、ユキミツフジ

概要

本論文は、事前に訓練されたオーディオ生成モデルを活用して、映像とセマンティック、時間的に整列した高品質オーディオを合成するポリ合成(Foley synthesis)に焦点を当てています。従来のControlNetベースのポリ合成方法が手作業で作成した時間条件に依存する限界を克服するために、本論文では、事前訓練されたSpecMaskGITモデルにControlNetを適用するSpecMaskFoley方法を提案します。特に、画像の時間的特徴とSpecMaskGITモデルの時間 - 周波数特性との間の不整合を解決するために、周波数認識時間的特徴整列器を使用して単一のControlNet分岐を効果的に利用する。その結果、SpecMaskFoleyは従来のfrom-scratchモデルと比較してパフォーマンスの向上を示し、ControlNetベースのポリ合成モデルの開発に大きく貢献しています。

Takeaways、Limitations

Takeaways:
事前に訓練されたモデルを活用して、ポリ合成の効率を高めました。
ControlNetの利用性を拡張し、複雑な条件メカニズムなしで優れたパフォーマンスを達成しました。
従来のFrom-scratchモデルを上回る性能を示すことで、ControlNetベースのポリ合成研究の新たな可能性を提示しました。
周波数認識時間的特徴アライナは、時間的特徴と時間 - 周波数特性との間の不一致の問題を効果的に解決しました。
Limitations:
提案された方法のパフォーマンスが特定のベンチマークデータセットに限定される可能性があります。
様々な種類の映像および音声に対する一般化性能評価がさらに必要である。
SpecMaskGITモデルに依存する構造上の制限が存在する可能性があります。
👍