Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models

Created by
  • Haebom

作者

エイリアンリン、銭湯李、小太郎 笹子、マナブオクムラ

概要

この論文では、デコーダ専用の大規模言語モデル(LLM)を使用した埋め込みモデルのパフォーマンスを向上させるための新しい方法であるCausal2Vecを提案します。既存の方法が双方向アテンションのために因果関係アテンションマスクを削除したり、追加の入力テキストを使用して計算コストを増加させるという問題を解決するために、Causal2Vecは軽量BERTスタイルモデルを使用して入力テキストを1つのContextualトークンにプリエンコードし、それをLLM入力シーケンスに追加します。さらに、最終的なテキスト埋め込みを使用して、ContextualトークンとEOSトークンの最後の隠し状態をリンクして、最新のトークンバイアスを軽減し、LLMにContextualトークンに含まれる意味情報をよりよく活用します。実験の結果、Causal2Vecは、公的に利用可能な検索データセットでのみ学習されたモデルのうち、MTEB(Massive Text Embeddings Benchmark)で最先端の性能を達成し、従来の最高性能モデルと比較してシーケンス長を最大85%、推論時間を最大82%に短縮しました。

Takeaways、Limitations

Takeaways:
デコーダ専用LLMを用いた効率的な埋め込みモデルの構築方法の提示
既存の方法の計算コストと性能低下のトラブルシューティング
MTEBベンチマークで最先端のパフォーマンスを達成
シーケンス長と推論時間の短縮による効率向上
Limitations:
提案された方法の性能が特定のデータセット(一般に利用可能な検索データセット)に限定される可能性がある
さまざまな種類のLLMおよび埋め込みタスクの一般化性能評価が必要
軽量のBERTスタイルモデルをさらに使用することで、全体的な計算量が完全に減少したと判断することはできません。 (単にシーケンス長の減少に伴う効率の増加のみを示したものかもしれません)
👍