Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Created by
  • Haebom

作者

Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov

概要

Vision-Language-Action(VLA)モデルにおける高速推論のために,Normalizing Flow(NF)を利用したNinA(Normalizing Flows in Action)を提案する。 NinAは、既存のディフュージョンベースのアクションデコーダに代わって1回の変換でサンプリングを可能にし、推論時間を短縮します。 FLOWER VLAアーキテクチャに統合してLIBEROベンチマークで実験した結果、diffusionベースのデコーダと同等の性能を示しながら推論速度ははるかに速いことを確認した。

Takeaways、Limitations

Takeaways:
NinAは、VLAモデルでディフュージョンベースのデコーダに代わって推論速度を劇的に向上させる可能性を示しています。
性能を低下させることなく高周波制御が必要な実際の環境でのVLAモデルの適用可能性を高めた。
Limitations:
この論文では、NinAが他のVLAアーキテクチャとベンチマークでも同じ性能を示すことを確認する必要があります。
NinAの一般化性能とさまざまな複雑なタスクでの適合性をさらに評価する必要があります。
👍