본 연구는 아랍어 자연어 처리 분야의 중요한 공백을 해결하기 위해, 사용자가 단어의 설명이나 의미를 기반으로 단어를 찾을 수 있도록 하는 효과적인 아랍어 역어휘 시스템을 개발하는 데 중점을 둡니다. 기하급수적으로 감소하는 레이어를 특징으로 하는 반-인코더 신경망 아키텍처를 갖춘 새로운 트랜스포머 기반 접근 방식을 제시하며, 아랍어 역어휘 작업에 대한 최첨단 결과를 달성합니다. 포괄적인 데이터셋 구축 프로세스를 통합하고 아랍어 어휘 정의에 대한 공식적인 품질 표준을 설정합니다. 다양한 사전 훈련된 모델을 사용한 실험을 통해 아랍어 특화 모델이 일반적인 다국어 임베딩보다 훨씬 우수한 성능을 보임을 보여주며, ARBERTv2가 최고의 순위 점수(0.0644)를 달성합니다. 또한, 역어휘 작업에 대한 공식적인 추상화를 제공하여 이론적 이해를 높이고, 구성 가능한 훈련 파이프라인을 갖춘 모듈식이고 확장 가능한 Python 라이브러리(RDTL)를 개발합니다. 데이터셋 품질 분석을 통해 아랍어 정의 구축 개선에 대한 중요한 통찰력을 얻어 고품질 역어휘 리소스 구축을 위한 8가지 구체적인 표준을 제시합니다. 본 연구는 아랍어 계산 언어학에 크게 기여하고 아랍어 학습, 학술 글쓰기 및 전문적인 의사소통을 위한 귀중한 도구를 제공합니다.