Sign In

Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition

Created by
  • Haebom
Category
Empty

저자

Bin Chen, Yu Zhang, Hongfei Ye, Ziyi Huang, Hongyang Chen

개요

본 논문은 전자상거래 분야에서의 소량 데이터 다중 모달 대화 의도 인식이라는 어려운 문제를 다룹니다. 기존 방법들은 주로 학습 후 기법을 통해 모델의 분류 능력을 향상시키는 데 초점을 맞췄지만, 본 논문에서는 소량 데이터 다중 모달 대화 의도 인식을 위한 학습이 두 가지 상호 연관된 작업을 포함하며, 다중 작업 학습에서 시소 효과를 유발한다는 것을 분석을 통해 밝힙니다. 이 현상은 학습 과정 중 가중치 행렬 업데이트의 중첩으로 인한 지식 간섭 때문입니다. 이러한 문제를 해결하기 위해, 본 논문에서는 지식 분리 시너지 학습(KDSL)을 제안합니다. KDSL은 작은 모델을 사용하여 지식을 해석 가능한 규칙으로 변환하고, 큰 모델의 학습 후 기법을 적용함으로써 문제를 완화합니다. 크고 작은 다중 모달 대규모 언어 모델 간의 예측 협업을 용이하게 함으로써, 본 연구는 상당한 성능 향상을 보여줍니다. 특히, 두 개의 실제 타오바오 데이터셋에서 최첨단 방법에 비해 온라인 가중 F1 점수가 6.37%와 6.28% 향상되는 뛰어난 결과를 달성하여 본 프레임워크의 효과를 검증했습니다.

시사점, 한계점

시사점: 소량 데이터 다중 모달 대화 의도 인식 문제에 대한 새로운 접근 방식인 KDSL을 제시하고, 실제 데이터셋에서 우수한 성능 향상을 보임으로써, 다중 작업 학습에서의 지식 간섭 문제 해결에 대한 효과적인 해결책을 제시합니다. 대규모 언어 모델과 소규모 모델의 협업을 통해 해석 가능성과 성능을 동시에 개선할 수 있음을 보여줍니다.
한계점: 제안된 방법의 효과는 특정 전자상거래 데이터셋(타오바오)에 국한될 수 있습니다. 다른 도메인이나 데이터셋으로의 일반화 성능에 대한 추가적인 연구가 필요합니다. 또한, 작은 모델을 이용한 지식 변환 과정의 해석 가능성 및 신뢰성에 대한 더 자세한 분석이 필요할 수 있습니다. KDSL의 계산 비용 및 효율성에 대한 평가 또한 추가적인 연구가 필요합니다.
👍