QZhou-Embeddingは、Qwen2.5-7B-Instructベースのモデルを活用して開発された汎用のコンテキストテキスト埋め込みモデルです。さまざまなテキストデータセットを統合するデータ変換方法と、モデル学習効率を向上させるタスク固有の学習戦略を含む統合されたマルチタスクフレームワークを備えています。 LLM APIを活用したデータ合成パイプラインにより、意味豊かさとサンプルの難易度を向上させ、検索指向の事前学習と全作業微調整の2段階学習戦略を使用します。 MTEBおよびCMTEBのベンチマークで最先端のパフォーマンスを達成し、再ランク付け、クラスタリングなどの作業でも最高のパフォーマンスを示しました。高品質の多様なデータが検索モデルの性能向上に重要であり、LLMの生成能力を活用することで埋め込みモデルの性能向上に貢献できることを示している。モデルの重みはApache 2.0ライセンスの下でHuggingFaceで公開されており、再現性のためにGitHubに評価コードとガイダンスを提供します。