본 논문은 다중 모달 문서 검색에서 재순위 지정(reranking)의 정확도를 향상시키기 위해 강화 학습 기반의 새로운 다중 모달 추론 강화 재순위 지정 모델인 MM-R5를 제안합니다. MM-R5는 지도 학습 미세 조정(SFT)과 강화 학습(RL) 두 단계로 학습됩니다. SFT 단계에서는 풍부하고 고품질의 추론 데이터를 생성하는 새로운 데이터 구성 전략을 통해 명령어 따르기 능력을 향상시키고 완전하고 고품질의 추론 체인을 생성하도록 모델을 유도합니다. RL 단계에서는 다중 모달 후보를 위한 재순위 지정 보상과 추론 품질을 더욱 개선하기 위한 복합 템플릿 기반 보상을 포함하는 작업별 보상 체계를 설계합니다. MMDocIR 벤치마크를 사용한 실험 결과, MM-R5는 대부분의 지표에서 최첨단 성능을 달성했으며, 나머지 지표에서도 훨씬 큰 모델과 비슷한 결과를 보였습니다. 또한, 최고의 검색 전용 방법과 비교하여 재현율@1을 4% 이상 향상시켰습니다.
시사점, 한계점
•
시사점:
◦
강화 학습 기반의 다중 모달 추론 강화 재순위 지정 모델 MM-R5가 다중 모달 문서 검색의 정확도를 향상시키는 효과적인 방법임을 제시합니다.
◦
새로운 데이터 구성 전략과 작업별 보상 체계를 통해 명령어 따르기 능력과 추론 품질을 향상시킬 수 있음을 보여줍니다.
◦
MMDocIR 벤치마크에서 최첨단 성능을 달성하여 모델의 우수성을 입증합니다.
◦
검색 전용 방법에 비해 상당한 성능 향상을 보입니다.
•
한계점:
◦
본 논문에서는 MM-R5의 성능을 MMDocIR 벤치마크에서만 평가하였으므로, 다른 벤치마크 데이터셋에 대한 일반화 성능은 추가 연구가 필요합니다.