Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Cequel: Cost-Effective Querying of Large Language Models for Text Clustering

Created by
  • Haebom

作者

Hongtao Wang, Taiyan Zhang, Renchi Yang, Jianliang Xu

概要

本稿では、大規模言語モデル(LLM)を活用したテキストクラスタリングの高コスト問題を解決するために、Cequelと呼ばれる費用対効果の高いフレームワークを提案します。 Cequel は、EdgeLLM と TriangleLLM というアルゴリズムを使用して、情報が豊富なテキストペアまたは三重項をオプションで LLM に問い合せ、must-link および cannot-link 制約を生成します。これらの制約は、重み付けされた制約クラスタリングアルゴリズムで使用され、高品質クラスタを形成します。 EdgeLLMとTriangleLLMは、慎重に設計された貪欲な選択戦略とプロンプト技術を使用して、情報豊富な制約を効率的に識別して抽出します。さまざまなベンチマークデータセットの実験結果、Cequelは、同じクエリ予算内で従来の非マップテキストクラスタリング方法よりも優れたパフォーマンスを示しています。

Takeaways、Limitations

Takeaways:
限られたLLMクエリ予算の下でも、正確なテキストクラスタリングを達成するための費用対効果の高いフレームワークを提供します。
EdgeLLM アルゴリズムと TriangleLLM アルゴリズムにより、情報が豊富な制約を効率的に抽出し、パフォーマンスを向上させます。
さまざまなベンチマークデータセットで従来の方法より優れたパフォーマンスを実証します。
Limitations:
提案されたアルゴリズムの最適化パラメータの設定に関する詳細な議論が不足する可能性があります。
様々な種類のLLMの一般化性能のさらなる分析が必要になる場合がある。
実際のアプリケーションに適用するためのスケーラビリティとリアルタイム処理性能の評価が必要になる場合があります。
👍