Retrieval Augmented Generation (RAG) 시스템은 사전 훈련된 임베딩의 성능 저하와 대규모 언어 모델(LLM) 기반 검색기의 과도한 계산 비용으로 인해 도메인 특정 지식 처리에 어려움을 겪습니다. 미세 조정 데이터 증강 임베딩 모델은 유망한 방향을 제시하지만, 고품질 훈련 데이터와 문맥적 무결성을 유지하는 신뢰할 수 있는 청킹 전략의 필요성으로 인해 효과가 제한적입니다. 본 논문에서는 LLM 기반 데이터 합성, 대조적 임베딩 적응 및 효율적인 텍스트 클러스터링을 결합하는 모델 독립적 프레임워크인 LMAR(Language Model Augmented Retriever)를 제안합니다. LMAR은 두 단계 파이프라인으로 구성됩니다. (1) LLM이 파이프라인 전체에서 고충실도 감독을 보장하기 위해 레이블러 및 검증자 역할을 하는 삼중항 샘플링 및 합성 데이터 증강. 실험 결과는 여러 도메인 특정 벤치마크 데이터 세트에서 LMAR이 여러 기준 모델보다 우수한 성능을 보이는 동시에 적당한 하드웨어 요구 사항과 낮은 대기 시간을 유지함을 보여줍니다. 모델 독립적인 특성으로 인해 새로운 RAG 아키텍처 및 텍스트 임베딩 모델과 원활하게 통합되어 파이프라인을 재설계하지 않고도 지속적인 개선이 가능합니다. 이러한 결과는 LMAR이 확장 가능한 도메인 특정 적응을 위한 실용적이고 비용 효율적인 솔루션임을 강조합니다.