본 논문은 시각 및 텍스트 정보 통합에 어려움을 겪는 다중 모달 대규모 언어 모델(MLLM)의 한계를 극복하기 위해, 바이트 쌍 인코딩(BPE) 원리를 시각 데이터에 적용한 새로운 이미지 토크나이저를 제안합니다. 기존의 별도 시각 인코더 기반 방식과 달리, 본 연구는 구조적 사전 정보를 이미지 토큰에 직접 통합하여 텍스트 전용 LLM의 성공적인 토크나이저 전략을 모방합니다. 이를 통해 Transformer 모델은 다중 모달 간의 학습 및 추론을 더 효과적으로 수행할 수 있습니다. 이론적 분석 및 광범위한 실험을 통해 BPE 이미지 토크나이저가 제한된 학습 데이터에서도 MLLM의 다중 모달 이해 능력을 크게 향상시킨다는 것을 보여줍니다. 이 방법을 활용하여 개발된 Being-VL-0 모델은 다양한 벤치마크에서 우수한 성능을 보이며 확장성 또한 높다는 것을 증명하여, 보다 효율적이고 성능이 뛰어난 다중 모달 기반 모델 개발의 가능성을 제시합니다.
시사점, 한계점
•
시사점:
◦
BPE를 이용한 새로운 이미지 토크나이저는 MLLM의 다중 모달 이해 능력을 향상시킵니다.
◦
제한된 학습 데이터에서도 효과적인 성능을 보입니다.
◦
Being-VL-0 모델은 다양한 벤치마크에서 우수한 성능을 보이며, 효율적인 다중 모달 기반 모델 개발의 가능성을 제시합니다.
◦
구조적 사전 정보를 이미지 토큰에 직접 통합하는 방식은 향후 다중 모달 모델 개발에 새로운 방향을 제시합니다.
•
한계점:
◦
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
◦
Being-VL-0 모델의 성능이 다른 최첨단 MLLM과 비교 분석되어야 합니다.
◦
대규모 데이터셋을 사용한 실험 결과가 제시되지 않아, 실제 적용 가능성에 대한 추가적인 검증이 필요합니다.