Sign In

UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation

Created by
  • Haebom
Category
Empty

저자

Thanet Markchom, Tong Wu, Liting Huang, Huizhi Liang

개요

본 논문은 SemEval-2025 Task 1에서 영어와 브라질 포르투갈어의 관용적인 의미를 지닐 수 있는 명사구에 대한 이미지 순위 매기기 문제를 다룹니다. 대규모 언어 모델(LLM)과 다국어 CLIP 모델을 활용하여 관용적인 명사구의 표현을 향상시키는 방법을 제시합니다. LLM을 통해 관용적인 의미를 생성하고, 다국어 CLIP 모델을 이용하여 이미지 순위 매기기를 위한 표현으로 인코딩합니다. 대조 학습과 데이터 증강 기법을 통해 성능 향상을 위해 임베딩을 미세 조정합니다. 실험 결과, 제시된 방법으로 추출한 다중 모드 표현이 원래 명사구에만 기반한 표현보다 성능이 우수함을 보였습니다. 미세 조정 접근 방식은 유망한 결과를 보였지만, 미세 조정 없이 임베딩을 사용하는 것보다 효과적이지 않았습니다. 소스 코드는 https://github.com/tongwu17/SemEval-2025-Task1-UoR-NCL 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
LLM과 다국어 CLIP 모델을 결합하여 관용적 의미를 가진 명사구에 대한 이미지 순위 매기기 성능 향상 가능성을 보여줌.
다중 모드 표현을 활용한 이미지 순위 매기기의 효과성을 실험적으로 검증.
데이터 증강 및 대조 학습 기법의 유용성 확인.
한계점:
미세 조정을 통한 성능 향상이 기대만큼 효과적이지 않음.
LLM과 CLIP 모델의 성능에 의존적일 가능성 존재.
다른 언어나 다른 유형의 명사구에 대한 일반화 성능에 대한 추가 연구 필요.
👍