본 논문은 SemEval-2025 Task 1에서 영어와 브라질 포르투갈어의 관용적인 의미를 지닐 수 있는 명사구에 대한 이미지 순위 매김 작업을 다룹니다. 관용적인 의미를 가진 명사구의 의미를 풍부하게 하기 위해 생성형 대규모 언어 모델(LLM)을 사용하여 의미를 생성하고, 다국어 CLIP 모델을 이용하여 이를 이미지 순위 매김을 위한 표현으로 인코딩합니다. 향상된 성능을 위해 대조 학습과 데이터 증강 기법을 적용하여 임베딩을 미세 조정합니다. 실험 결과, 제안된 방법으로 추출한 다중 모달 표현이 원래 명사구만을 기반으로 한 표현보다 우수한 성능을 보였으나, 미세 조정을 거치지 않은 임베딩을 사용하는 것이 미세 조정된 임베딩보다 더 효과적이었습니다. 소스 코드는 https://github.com/tongwu17/SemEval-2025-Task1-UoR-NCL 에서 확인 가능합니다.