[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Vision-and-Language Training Helps Deploy Taxonomic Knowledge but Does Not Fundamentally Alter It

Created by
  • Haebom

저자

Yulu Qin, Dheeraj Varghese, Adam Dahlgren Lindstrom, Lucia Donatelli, Kanishka Misra, Najoung Kim

개요

본 논문은 시각-언어(VL) 학습이 언어 모델의 언어적 표현에 의미 있는 변화를 가져오는지에 대한 질문에 답하고자 한다. 기존 연구들은 행동적 및 표상적 측면에서 일관성 없는 결과 또는 미미한 차이만을 보여주었다. 본 연구는 VL 학습이 특히 개념의 분류적 조직과 같은 어휘-개념적 지식에 상당한 영향을 미칠 수 있다는 가설에서 출발한다. 텍스트 전용 언어 모델(LM)과 VL 학습된 모델(VLM)의 최소 쌍을 비교하여, VL 모델이 질문에 언급된 개념의 분류적 이해를 요구하는 텍스트 전용 질문-응답 작업에서 텍스트 전용 모델보다 종종 성능이 우수함을 보여준다. 다양한 표적 행동 및 표상 분석을 통해 LM과 VLM이 분류적 지식 자체에는 유의미한 차이가 없지만, 분류적 관계 또는 비분류적 관계에 있는 개념을 포함하는 질문을 표현하는 방식에는 차이가 있음을 보여준다. 이는 추가적인 VL 학습을 통해 분류적 지식 자체가 크게 변하지는 않지만, 작업 제시 방식이 순전히 언어적이더라도 특정 작업의 맥락에서 이 지식의 활용을 향상시킨다는 것을 의미한다.

시사점, 한계점

시사점: VL 학습은 언어 모델의 분류적 지식 자체를 변화시키지는 않지만, 특정 작업에서 해당 지식의 활용 능력을 향상시킬 수 있음을 보여준다. 이는 순전히 언어적 작업에서도 VL 학습의 효과가 나타날 수 있음을 시사한다.
한계점: 본 연구는 특정 유형의 질문-응답 작업에 초점을 맞추고 있으며, 다른 유형의 작업이나 언어적 능력에 대한 VL 학습의 영향은 추가 연구가 필요하다. 또한, 사용된 최소 쌍 비교 방식의 일반화 가능성에 대한 검토가 필요하다.
👍