Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning
Created by
Haebom
저자
Jinghui Lu, Haiyang Yu, Siliang Xu, Shiwei Ran, Guozhi Tang, Siqi Wang, Bin Shan, Teng Fu, Hao Feng, Jingqun Tang, Han Wang, Can Huang
개요
본 논문은 대규모 언어 모델(LLM)과 다중 모달 대규모 언어 모델(MLLM)의 추론 능력 향상에 대한 최근 연구를 바탕으로, 사고연쇄(CoT) 추론의 과도한 의존이 모델 성능 저하 및 출력 길이 증가로 이어져 효율성을 떨어뜨릴 수 있음을 밝혔습니다. 단순 작업에서는 장황한 추론이 정확도를 향상시키지 않고 오히려 성능을 저하시키는 경우도 있음을 발견했습니다. 이를 해결하기 위해 모델의 퍼플렉서티(perplexity)에 기반하여 짧은 답변과 장문의 추론을 동적으로 전환하는 새로운 프레임워크인 Certainty-based Adaptive Reasoning (CAR)을 제안합니다. CAR은 먼저 짧은 답변을 생성하고 퍼플렉서티를 평가하여, 모델의 신뢰도가 낮을 경우(즉, 퍼플렉서티가 높을 경우)에만 추론을 수행합니다. 다양한 다중 모달 VQA/KIE 벤치마크 및 텍스트 추론 데이터셋에 대한 실험 결과, CAR은 짧은 답변 방식과 장문의 추론 방식 모두를 능가하며 정확성과 효율성 간의 최적의 균형을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
사고연쇄(CoT) 추론의 과도한 사용이 항상 성능 향상으로 이어지지 않음을 증명했습니다.
◦
모델의 신뢰도를 기반으로 추론 전략을 동적으로 조절하는 CAR 프레임워크의 효용성을 제시했습니다.
◦
정확성과 효율성을 동시에 개선할 수 있는 새로운 접근 방식을 제안했습니다.
◦
다양한 벤치마크에서 CAR의 우수한 성능을 실험적으로 검증했습니다.
•
한계점:
◦
제안된 CAR 프레임워크의 퍼플렉서티 기반 신뢰도 평가 방식의 일반화 가능성에 대한 추가 연구가 필요합니다.