Sign In

Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning

Created by
  • Haebom
Category
Empty

저자

Yanan Chen, Ali Pesaranghader, Tanmana Sadhu

개요

본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력, 특히 중소형 오픈 LLM의 신뢰성에 대한 질문을 다룹니다. 기존의 강력한 LLM의 추론 능력을 향상시키기 위해, 약한 보조 LLM들의 다양한 의견을 활용하는 사후 훈련 기법인 '의견 혼합(MoO)'을 제안합니다. MoO는 사후 훈련 샘플에 보조 LLM들의 Chain-of-Thought(CoT) 추론 과정과 답변을 추가하여 주요 LLM이 다양한 관점을 학습하도록 합니다. 실험 결과, MoO는 수학적 추론 벤치마크에서 기존의 지도 학습 미세 조정(SFT), 몇 번의 예시 프롬프트, 에이전트 혼합(MoA) 방법보다 평균 5% 향상된 성능을 보이며, 추론 과제에서 다양한 관점의 가치를 강조합니다.

시사점, 한계점

시사점:
약한 LLM들의 의견을 통합하여 강력한 LLM의 수학적 추론 능력 향상 가능성을 제시.
다양한 관점이 추론 과제 성능 향상에 중요한 역할을 한다는 것을 실험적으로 증명.
MoO는 기존의 SFT, few-shot prompting, MoA보다 우수한 성능을 보임.
한계점:
MoO의 성능 향상이 평균 5%로 상대적으로 크지 않음.
사용된 보조 LLM의 종류 및 수에 따른 성능 변화에 대한 분석이 부족할 수 있음.
다른 유형의 추론 과제에 대한 일반화 가능성에 대한 추가 연구 필요.
👍