NetoAI에서 개발한 T-VEC (Telecom Vectorization Model)은 통신 산업 특화 어휘 및 개념에 대한 자연어 처리 모델입니다. 기존의 일반적인 텍스트 임베딩 모델의 한계를 극복하기 위해 최첨단 gte-Qwen2-1.5B-instruct 모델을 기반으로, 대규모 통신 특화 데이터셋을 이용하여 triplet loss objective를 적용하여 미세 조정했습니다. 기존 모델의 338개 레이어에 걸쳐 가중치를 상당히 수정하여 도메인 지식을 심층적으로 통합했으며, 통신 산업 전문 용어 처리를 개선하는 특화 토크나이저를 개발하여 공개(MIT License)했습니다. 내부 평가 벤치마크에서 기존 모델 대비 월등한 성능(0.9380 vs. 0.07 미만)을 보였으며, 평균 MTEB 점수 0.825를 달성했습니다.