Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov Logic

Created by
  • Haebom
Category
Empty

저자

Monika Shah, Somdeb Sarkhel, Deepak Venugopal

개요

본 논문은 다중 모달 시스템의 파인튜닝 과정에서 모델이 학습하는 내용을 기존 지식과 분리하기 어려운 문제를 해결하기 위해, Hybrid Markov Logic Networks (HMLNs)를 이용하여 이미지의 시각적 특징과 캡션의 상징적 지식을 연결하는 확률적 모델을 학습하는 방법을 제시합니다. HMLN 분포를 이용한 확률적 추론을 통해 생성된 캡션에 대한 훈련 예제의 영향을 정량화하고, MSCOCO 데이터셋에서 다양한 캡션 생성 모델(LLM 사용 여부에 따라 구분)에 대해 두 가지 유형의 추론 절차를 평가합니다. 실험 결과, LLM을 사용하는 BLIP2와 같이 일반적인 지식을 더 많이 가지고 있는 모델은 파인튜닝의 영향이 상대적으로 작은 것으로 나타났습니다.

시사점, 한계점

시사점:
HMLN을 이용하여 다중 모달 모델의 파인튜닝 과정에서의 지식 습득 과정을 분석하는 새로운 방법 제시
LLM 기반 모델과 비 LLM 기반 모델의 파인튜닝 영향 차이를 정량적으로 분석
다중 모달 모델의 학습 과정에 대한 이해도 향상
한계점:
HMLN 기반 모델 학습 및 추론의 계산 비용이 높을 수 있음
MSCOCO 데이터셋에 대한 평가 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요
분석 대상 모델의 종류가 제한적임 (BLIP2 등 특정 모델에 국한)
👍