Sign In

UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation

Created by
  • Haebom
Category
Empty

저자

Thanet Markchom, Tong Wu, Liting Huang, Huizhi Liang

개요

본 논문은 SemEval-2025 Task 1에서 영어와 브라질 포르투갈어의 관용적인 의미를 지닐 수 있는 명사구에 대한 이미지 순위 매김 작업을 다룹니다. 관용적인 의미를 가진 명사구의 의미를 풍부하게 하기 위해 생성형 대규모 언어 모델(LLM)을 사용하여 의미를 생성하고, 다국어 CLIP 모델을 이용하여 이를 이미지 순위 매김을 위한 표현으로 인코딩합니다. 향상된 성능을 위해 대조 학습과 데이터 증강 기법을 적용하여 임베딩을 미세 조정합니다. 실험 결과, 제안된 방법으로 추출한 다중 모달 표현이 원래 명사구만을 기반으로 한 표현보다 우수한 성능을 보였으나, 미세 조정을 거치지 않은 임베딩을 사용하는 것이 미세 조정된 임베딩보다 더 효과적이었습니다. 소스 코드는 https://github.com/tongwu17/SemEval-2025-Task1-UoR-NCL 에서 확인 가능합니다.

시사점, 한계점

시사점:
LLM과 다국어 CLIP 모델을 결합하여 관용적 의미를 지닌 명사구에 대한 이미지 순위 매김 작업의 성능을 향상시킬 수 있음을 보여줌.
다중 모달 표현의 효용성을 확인.
제안된 방법이 SemEval-2025 Task 1과 같은 다국어, 관용적 표현 이해가 필요한 작업에 적용 가능성을 제시.
한계점:
미세 조정된 임베딩보다 미세 조정되지 않은 임베딩이 더 나은 성능을 보임. 미세 조정 전략 개선 필요.
LLM과 CLIP 모델의 성능에 의존적일 수 있음. 모델의 한계가 결과에 영향을 미칠 가능성 존재.
👍