Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Overflow Prevention Enhances Long-Context Recurrent LLMs

Created by
  • Haebom

作者

Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, Lior Wolf, James Glass, Leonid Karlinsky, Raja Giryes

概要

本論文は,長文文脈処理効率を改善する循環サブ二次モデルの最近の傾向を研究する。固定サイズの循環メモリがパフォーマンスに与える影響に焦点を当て、主要な長文脈モデルを調査します。実験の結果、これらのモデルが長い文脈で学習されても、長文脈の活用が低くなることを示しました。この論文は、入力の中で最も関連性の高い部分のみを識別し処理するチャンクベースの推論手順が循環メモリ障害を軽減し、多くの長文脈絡動作に有効であることを示しています。 LongBenchで提案された方法は、Falcon3-Mamba-Inst-7Bの性能を14%、Falcon-Mamba-Inst-7Bは28%、RecurrentGemma-IT-9Bは50%、RWKV6-Finch-7Bは51%向上しました。驚くべきことに、この簡単なアプローチは、困難なLongBench v2ベンチマークで最先端の結果を達成し、同じサイズのTransformerと競争力のあるパフォーマンスを示しました。さらに、単一チャンク戦略がより強力な性能を提供するという事実は、循環モデルが長距離依存性を実際に利用するかどうかについて疑問を提起する。

Takeaways、Limitations

Takeaways:チャンクベースの推論手順は、長文脈絡モデルのパフォーマンスを大幅に向上させることができることを示しています。循環モデルの長文脈処理効率を改善する新しい方法の提示LongBench v2で最先端のパフォーマンスを達成。循環モデルの長距離依存性の利用に対する在庫の必要性の提起
Limitations:提案された方法の一般化の可能性に関するさらなる研究が必要です。様々な種類の長文文脈作業とモデルのための追加実験が必要循環モデルのメモリ効率のより深い分析が必要です。
👍