본 논문은 기존의 계산량이 많은 Transformer 기반의 다중 모달 연구에 대한 대안으로, 계산 효율적인 RNN 아키텍처인 RWKV7을 기반으로 한 새로운 다중 모달 프레임워크 ModRWKV를 제시합니다. ModRWKV는 다양한 모달 정보를 동적으로 처리하는 경량 아키텍처의 모듈을 통해 정보 융합을 수행하며, RWKV7의 사전 훈련된 가중치를 활용하여 학습 속도를 높입니다. 실험 결과, ModRWKV는 Transformer 기반 모델에 비해 계산 효율성이 뛰어나면서도 우수한 성능을 보이며, 다중 모달 LLM 분야에서 RNN 아키텍처의 활용 가능성을 제시합니다. 또한, 체계적인 실험을 통해 ModRWKV의 최적 구성을 밝혀냅니다.