Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NMIXX: Domain-Adapted Neural Embeddings for Cross-Lingual eXploration of Finance

Created by
  • Haebom
Category
Empty

저자

Hanwool Lee, Sara Yu, Yewon Hwang, Jonghyun Choi, Heejae Ahn, Sungbum Jung, Youngjae Yu

개요

본 논문은 금융 분야의 특수성을 반영하지 못하는 일반적인 문장 임베딩 모델의 한계를 극복하기 위해, 한국어를 포함한 저자원 언어 환경에서의 금융 특화 임베딩 모델인 NMIXX를 제안합니다. NMIXX는 도메인 특화된 용어, 시간적 의미 변화, 그리고 상이한 이중 언어 어휘 문제를 해결하기 위해, 18.8K개의 고신뢰 삼중항(패러프레이즈, 의미 변화 유형에서 파생된 어려운 부정 예시, 정확한 한국어-영어 번역)으로 미세 조정되었습니다. 또한, 뉴스, 공시, 연구 보고서, 규정을 포함하는 1,921쌍의 한국어 금융 STS 벤치마크인 KorFinSTS를 공개하여 일반적인 벤치마크가 놓치는 미묘한 차이를 파악할 수 있도록 했습니다.

시사점, 한계점

NMIXX는 영어 FinSTS에서 +0.10, KorFinSTS에서 +0.22의 Spearman's rho 향상을 보이며 기존 모델들을 능가하는 성능을 보였습니다.
일반적인 STS 성능에서 약간의 trade-off가 발생했습니다.
한국어 토큰 커버리지가 높은 모델이 더 효과적으로 적응하는 것을 확인하여, 저자원, 다국어 환경에서의 토크나이저 설계의 중요성을 강조했습니다.
모델과 벤치마크를 공개하여 금융 분야의 다국어 표현 학습을 위한 강력한 도구를 제공합니다.
👍