本論文はペルシャ語テキスト埋め込み研究の進歩を目指しており、既存のアプローチに比べて8.5%の性能向上を達成した新しいペルシャ語テキスト埋め込みモデルHakimを提示する。 HakimはFaMTEBベンチマークで既存のペルシャ語モデルを上回り、地図と非地図学習のための3つの新しいデータセット(Corpesia、Pairsia-sup、Pairsia-unsup)を導入しました。さらに、チャットボットおよび検索拡張生成(RAG)システム内のメッセージ記録を統合する検索タスクに適合するように設計されている。 BERTアーキテクチャに基づく新しい基準モデルも提案され,いくつかのペルシャNLP操作でより高い精度を示した。 RetroMAEベースのモデルは、テキスト情報検索アプリケーションに特に効果的であることが証明されています。