본 논문은 기존 오픈소스 멀티모달 모델들의 약한 멀티턴 상호작용 능력, 특히 긴 문맥에서의 한계를 해결하기 위해 ContextQFormer라는 문맥 모델링 모듈을 제시합니다. ContextQFormer는 메모리 블록을 활용하여 문맥 정보 표현을 향상시킵니다. 또한, 향후 연구를 위해 새로운 멀티턴 멀티모달 대화 데이터셋 TMDialog를 구축하여 공개할 예정이며, 이 데이터셋은 기존 데이터셋보다 긴 대화를 포함하여 멀티턴 멀티모달 대화 연구를 지원합니다. 실험 결과, ContextQFormer는 기존 모델들보다 사용 가능 비율을 2%-4% 향상시켰음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
긴 문맥을 포함하는 멀티턴 멀티모달 대화 모델의 성능 향상 가능성 제시
◦
새로운 멀티턴 멀티모달 대화 데이터셋 TMDialog 공개를 통한 연구 활성화 기여
◦
ContextQFormer를 통해 멀티모달 대화 모델의 사용 가능 비율 향상
•
한계점:
◦
TMDialog 데이터셋의 구체적인 구성 및 규모에 대한 정보 부족
◦
ContextQFormer의 성능 향상이 2%-4%로 상대적으로 미미할 수 있음
◦
다양한 멀티모달 대화 모델과의 비교 실험이 부족할 수 있음 (단 3개의 기준 모델과 비교)