Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management

Created by
  • Haebom

作者

Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov

概要

本稿では、大規模言語モデル(LLM)ベースのソフトウェアエンジニアリング(SWE)エージェントで長いコンテキスト履歴管理戦略を比較分析した研究結果を紹介します。 OpenHandsやCursorなど、LLMベースのサマリーを使用する従来の方法と、単に以前の観察を無視する方法を、SWE-bench Verifiedデータセットでさまざまなモデル構成で比較評価しました。その結果、Observation-Masking戦略はLLMサマリーベースの方法に似ているか、若干高い問題解決率を示し、コストは半分に減少することを確認しました。たとえば、Qwen3-Coder 480Bモデルでは、observation-maskingは問題解決率を53.8%から54.8%に向上させ、LLMの要約と同様のパフォーマンスを低コストで達成しました。本研究は、少なくともSWE-agentおよびSWE-bench Verified環境では、最も効果的かつ効率的なコンテキスト管理が最も単純な方法であり得ることを示唆している。再現性のためにコードとデータを公開します。

Takeaways、Limitations

Takeaways:
LLM ベースの SWE エージェントでは、複雑なサマリー手法よりも単純な observation-masking 戦略がより効率的で効果的であることを示しています。
コスト削減とパフォーマンス向上を同時に達成できる実用的なコンテキスト管理戦略を提示します。
LLMベースのエージェントの効率的なコンテキスト管理の新しい視点を提供します。
Limitations:
研究は特定のエージェント(SWE-agent)とデータセット(SWE-bench Verified)に限定され、一般化に制限がある可能性があります。
他のLLMまたはジョブ・タイプでは、結果が異なる場合があります。
Observation-masking戦略の長期的な性能と安定性のさらなる研究が必要です。
👍