Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Minimal neuron ablation triggers catastrophic collapse in the language core of Large Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Cen Lu, Yung-Chen Tang, Andrea Cavallaro

개요

본 논문은 대형 비전-언어 모델(LVLM)의 구조적 취약성을 연구하여 치명적인 붕괴를 유발하는 중요 뉴런을 식별하는 데 초점을 맞춘다. 특히, Consistently Activated Neurons (CAN) 탐지 및 점진적 마스킹을 통한 중요 뉴런 위치 파악 기법을 제안한다. LLaVA-1.5-7b-hf 및 InstructBLIP-Vicuna-7b 모델에 대한 실험 결과, 언어 모델의 피드-포워드 네트워크의 극히 일부 뉴런(최대 4개)만 마스킹해도 치명적인 붕괴가 발생할 수 있음을 확인했다. 중요 뉴런은 주로 언어 모델에 위치하며, 다운-프로젝션 레이어가 특히 취약하다는 것을 발견했다. 또한, 표현력 저하 후 급격한 완전 붕괴로 이어지는 일관된 두 단계 붕괴 패턴을 관찰했다.

시사점, 한계점

LVLM의 안전성 연구에 중요한 통찰력을 제공
극소수의 뉴런만 제거해도 모델이 붕괴될 수 있음을 보여줌
중요 뉴런이 언어 모델에 주로 위치하며 다운-프로젝션 레이어가 취약하다는 점을 발견
두 단계 붕괴 패턴(표현력 저하 -> 완전 붕괴) 관찰
실험에 사용된 모델의 종류가 제한적임
제안된 방법론의 일반화 가능성에 대한 추가 연구 필요
붕괴 메커니즘에 대한 추가적인 이해 필요
👍