본 논문은 페르시아어에 대한 대규모 임베딩 연구의 부족을 해결하기 위해 새로운 최첨단 페르시아어 텍스트 임베딩 모델인 Hakim을 제시합니다. Hakim은 FaMTEB 벤치마크에서 기존 접근 방식보다 8.5% 향상된 성능을 달성하여 기존 모든 페르시아어 모델을 능가합니다. 또한, 지도 및 비지도 학습 시나리오를 지원하는 세 가지 새로운 데이터셋(Corpesia, Pairsia-sup, Pairsia-unsup)을 소개합니다. Hakim은 특히 메시지 기록을 통합해야 하는 검색 작업에 초점을 맞춘 챗봇 및 RAG(Retrieval-Augmented Generation) 시스템에 적용하도록 설계되었으며, BERT 기반의 새로운 기준 모델도 제안합니다. 다양한 페르시아어 NLP 작업에서 높은 정확도를 달성하며, RetroMAE 기반 모델은 특히 텍스트 정보 검색 애플리케이션에 효과적임을 보여줍니다.