Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

Created by
  • Haebom

作者

Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming

概要

LoCoBenchは、数百万のトークンに及ぶ長いコンテキストウィンドウを持つ長文脈言語モデル(LLM)を実用的で複雑なソフトウェア開発シナリオで評価するために特別に設計された包括的なベンチマークです。従来の単一関数の完成や短いコンテキスト作業に焦点を当てたコード評価ベンチマークとは異なり、LoCoBenchはコードベース全体を理解し、複数のファイルを介して推論し、大規模なソフトウェアシステムでアーキテクチャの一貫性を維持するために必要な長文脈機能の重要な評価ギャップを解消します。 10個のプログラミング言語にわたって体系的に生成された8,000個の評価シナリオを提供し、コンテキスト長は1万~100万トークンで100倍の変化を示し、実際のソフトウェア開発環境で長文脈の性能低下を正確に評価できるようにします。アーキテクチャ理解、ファイル間リファクタリング、マルチセッション開発、バグ調査、機能実装、コード理解、統合テスト、セキュリティ分析など、長文脈機能を捉える8つのタスクカテゴリを紹介します。 5段階のパイプラインにより、これまでにない規模で複雑なコードベースの推論をLLMに要求する多様で高品質のシナリオを作成します。 4つの次元にわたって、17の指標(8つの新しい評価指標を含む)とLoCoBench Score(LCBS)を含む包括的な評価フレームワークを導入します。最先端の長文脈モデルの評価の結果、かなりのパフォーマンスギャップが明らかになり、複雑なソフトウェア開発における長文脈の理解がかなりの未解決の課題であることを示しています。 LoCoBenchはhttps://github.com/SalesforceAIResearch/LoCoBenchで公開されています。

Takeaways、Limitations

Takeaways:
実際のソフトウェア開発シナリオで長文脈LLMのパフォーマンスを包括的に評価できる新しいベンチマークを提供。
腸門脈理解能力の重要な未解決の課題を明らかにすることによる今後の研究方向の提示
さまざまなプログラミング言語とタスクタイプをサポートし、幅広い評価が可能です。
100倍に達する脈絡長変化により腸門脈性能低下を精密に分析可能。
新しい評価指標の提示により、より洗練された評価が可能です。
Limitations:
ベンチマークの作成プロセスと評価指標の設計の詳細な説明の欠如(追加情報が必要)。
現在評価されているモデルの種類と数が限られている可能性(追加モデルの評価が必要)。
実際のソフトウェア開発のすべての側面を完全に反映することはできません(一部のシナリオ制限)。
👍