Transformer 기반 모델에서 데이터 및 파라미터 수의 과도한 확장은 훈련 비용을 고려할 때 성능 향상이 감소하는 현상을 초래합니다. 이러한 정체는 유사한 성능을 유지하면서 더 효율적인 미세 조정 및 추론을 위한 방법의 중요성을 시사합니다. 특히 다중 모달 토큰 처리의 추론 비용이 모델의 실용성을 결정할 수 있는 다중 모달 학습 패러다임에서 더욱 그러합니다. 동시에 표현 및 기계적 해석성에 대한 연구는 Transformer 기반 모델의 내부 작동에 대한 이해를 향상시켰습니다. 이러한 연구 중 하나는 사전 훈련된 모델의 심층 레이어에서 모달 간에 암시적인 정렬이 있음을 보여줍니다. 이를 바탕으로, 본 연구는 사전 훈련된 모델을 정렬하는 기존 다중 모달 프레임워크에 대한 간단한 수정을 제안합니다. 제안된 방법은 기준 방법의 성능을 유지하고 경우에 따라 개선하면서 훈련 및 추론 시간 계산에서 상당한 이점을 달성함을 보여줍니다. 또한, 이 연구는 사전 훈련된 모델을 더 큰 시스템에 효율적으로 결합하는 데에도 시사점을 제공합니다.
시사점, 한계점
•
시사점:
◦
Transformer 기반 다중 모달 모델의 훈련 및 추론 비용을 효과적으로 절감하는 새로운 방법 제시.
◦
기존 다중 모달 프레임워크의 성능을 유지하거나 개선하면서 계산 효율성을 높임.
◦
사전 훈련된 모델을 효율적으로 결합하여 더 큰 시스템을 구축하는 데 대한 새로운 접근 방식 제시.
◦
다중 모달 모델의 심층 레이어에서의 암시적 모달 정렬 현상을 활용한 효율적인 모델 설계 가능성 제시.