본 논문은 한국어와 같은 저자원 언어에서 금융 특화 어휘, 시간적 의미 변화, 불일치하는 이중 언어 어휘 등으로 인해 일반적인 문장 임베딩 모델이 금융 분야의 의미를 제대로 포착하지 못하는 문제를 해결하기 위해 제안된 연구입니다. 이를 위해 연구진은 18.8K 개의 고신뢰도 삼중항(in-domain paraphrase, 의미 변화 유형에서 파생된 hard negatives, 정확한 한영 번역)을 사용하여 미세 조정된 다국어 임베딩 모델 NMIXX (Neural eMbeddings for Cross-lingual eXploration of Finance)를 소개합니다. 또한 뉴스, 공시, 연구 보고서, 규정 등을 포함하는 1,921쌍의 한국어 금융 STS 벤치마크 KorFinSTS를 함께 공개하여 일반적인 벤치마크에서 간과하는 세부적인 차이점을 드러냅니다. 평가 결과, NMIXX의 다국어 bge-m3 변형 모델은 영어 FinSTS에서 +0.10, 한국어 KorFinSTS에서 +0.22의 Spearman's rho 향상을 보이며, 기존 모델들을 능가하는 성능을 달성했습니다. 분석 결과, 한국어 토큰 적용 범위가 더 넓은 모델이 더 효과적으로 적응한다는 점을 확인하여 저자원 다국어 환경에서 토크나이저 설계의 중요성을 강조합니다. 모델과 벤치마크를 공개하여 금융 분야의 도메인 적응형 다국어 표현 학습을 위한 강력한 도구를 제공합니다.