# Platonic Grounding for Efficient Multimodal Language Models

### 저자

Moulik Choraria, Xinbo Wu, Akhil Bhimaraju, Nitesh Sekhar, Yue Wu, Xu Zhang, Prateek Singhal, Lav R. Varshney

### 개요

Transformer 기반 모델에서 데이터 및 파라미터 수의 과도한 확장은 훈련 비용을 고려할 때 성능 향상이 감소하는 현상을 초래합니다. 이러한 정체는 유사한 성능을 유지하면서 더 효율적인 미세 조정 및 추론을 위한 방법의 중요성을 시사합니다. 특히 다중 모달 토큰 처리의 추론 비용이 모델의 실용성을 결정할 수 있는 다중 모달 학습 패러다임에서 더욱 그러합니다. 동시에 표현 및 기계적 해석성에 대한 연구는 Transformer 기반 모델의 내부 작동에 대한 이해를 향상시켰습니다. 이러한 연구 중 하나는 사전 훈련된 모델의 심층 레이어에서 모달 간에 암시적인 정렬이 있음을 보여줍니다. 이를 바탕으로, 본 연구는 사전 훈련된 모델을 정렬하는 기존 다중 모달 프레임워크에 대한 간단한 수정을 제안합니다. 제안된 방법은 기준 방법의 성능을 유지하고 경우에 따라 개선하면서 훈련 및 추론 시간 계산에서 상당한 이점을 달성함을 보여줍니다. 또한, 이 연구는 사전 훈련된 모델을 더 큰 시스템에 효율적으로 결합하는 데에도 시사점을 제공합니다.

### 시사점, 한계점

- **시사점:**

    - Transformer 기반 다중 모달 모델의 훈련 및 추론 비용을 효과적으로 절감하는 새로운 방법 제시.

    - 기존 다중 모달 프레임워크의 성능을 유지하거나 개선하면서 계산 효율성을 높임.

    - 사전 훈련된 모델을 효율적으로 결합하여 더 큰 시스템을 구축하는 데 대한 새로운 접근 방식 제시.

    - 다중 모달 모델의 심층 레이어에서의 암시적 모달 정렬 현상을 활용한 효율적인 모델 설계 가능성 제시.

- **한계점:**

    - 제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.

    - 다양한 다중 모달 데이터셋 및 모델 아키텍처에 대한 실험적 검증 필요.

    - 제안된 방법의 계산 효율성 향상 정도가 데이터셋 및 모델에 따라 달라질 수 있음.

[PDF 보기](https://arxiv.org/pdf/2504.19327)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).