본 논문은 베트남어 임베딩 모델 평가를 위한 대규모 벤치마크 데이터셋인 VN-MTEB를 제시합니다. 베트남은 높은 인터넷 사용률과 온라인 유해성으로 인해 임베딩 모델의 활용이 중요하지만, 적절한 평가 데이터셋이 부족한 현실을 해결하기 위해 기존 영어 Massive Text Embedding Benchmark (MTEB)를 베트남어로 번역하여 구성했습니다. 대규모 언어 모델(LLM)과 최첨단 임베딩 모델을 활용하여 고품질 번역 및 필터링 과정을 거쳤으며, 자연스러운 언어 흐름과 의미적 정확성을 유지하면서 개체명 인식(NER)과 코드 조각까지 보존했습니다. 최종적으로 6가지 과제에 걸쳐 41개의 데이터셋으로 구성된 VN-MTEB를 제시하며, 분석 결과 Rotary Positional Embedding을 사용하는 크고 복잡한 모델이 Absolute Positional Embedding을 사용하는 모델보다 성능이 우수함을 보였습니다. 데이터셋은 HuggingFace에서 공개됩니다.