Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

Created by
  • Haebom

作者

Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

概要

AnyGPTは、音声、テキスト、画像、音楽など、さまざまなモダリティを統合処理するために離散表現を利用する、any-to-anyマルチモダリティ言語モデルです。既存の大規模言語モデル(LLM)アーキテクチャやトレーニング方法を変更することなく安定的にトレーニングでき、データレベルの前処理だけで新しいモダリティをLLMに統合できます。マルチモーダリティアラインメント 事前トレーニングのためのテキスト中心のマルチモダリティデータセットを構築し、生成モデルを活用して、さまざまなモダリティを複雑に編成した108,000個のサンプルからなる大規模なany-to-anyマルチモダリティ指示データセットを最初に合成しました。実験の結果、AnyGPTは、あらゆるモダリティで専門化されたモデルと同様のパフォーマンスを達成しながら、any-to-anyマルチモダリティ会話を可能にし、離散表現が言語モデル内で複数のモダリティを効果的かつ便利に統合できることを証明しました。デモはhttps://junzhan2000.github.io/AnyGPT.github.io/で確認できます。

Takeaways、Limitations

Takeaways:
既存のLLMアーキテクチャを変更せずにさまざまなモダリティを統合
データ前処理のみで新しいモダリティを追加可能
離散表現を用いた効果的で便利なマルチモダリティ統合
すべてのモダリティで専門化されたモデルと同様のパフォーマンスを達成
大規模な Any-to-any 多重モダリティ指示データセットを初めて構築
Limitations:
論文で明示的に言及されているLimitationsはありません。さらなる研究は、パフォーマンスの向上と限界の克服の必要性を示唆しています。
👍