Sign In

RAVR: Reference-Answer-guided Variational Reasoning for Large Language Models

Created by
  • Haebom
Category
Empty

저자

Tianqianjin Lin, Xi Zhao, Xingyao Zhang, Rujiao Long, Yi Xu, Zhuoren Jiang, Wenbo Su, Bo Zheng

개요

강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력을 향상시킬 수 있지만, LLM이 이미 높은 효용성의 추론 경로를 생성할 수 있어야 한다는 중요한 전제 조건에 의존한다. LLM의 현재 역량을 넘어선 작업의 경우, 이러한 추론 경로를 샘플링하기 어려울 수 있으며, 익숙하지만 최적화되지 않은 추론을 강화하는 위험이 있다. 본 연구는 인지 과학의 통찰력에서 영감을 받아, "이것이 답인 이유는 무엇인가?"라는 질문이 "무엇이 답인가?"보다 더 쉬울 수 있다는 점에 착안했다. 이는 열린 탐구의 부담을 피하고, 대신 질문과 답을 연결하는 추론을 체계적으로 추적하는 설명적 재구성을 선택하기 때문이다. 본 연구는 LLM이 답을 활용하여 고품질 추론 경로를 도출할 수 있음을 보여준다. 이 현상을 형식화하고, 답을 조건으로 하는 것이 샘플링된 추론 경로의 예상 효용을 입증적으로 증가시켜, 해결 불가능한 문제를 학습 가능한 문제로 변환한다는 것을 증명한다. 이러한 통찰력을 바탕으로, 본 연구는 답 조건 추론을 질문 전용 추론의 변분적 대용으로 사용하는 end-to-end 프레임워크인 RAVR (Reference-Answer-guided Variational Reasoning)을 소개한다. 일반 및 수학 도메인 모두에서 수행된 실험은 강력한 기준선보다 일관된 개선을 보여주었다. 또한 추론 행동을 분석한 결과, RAVR은 망설임을 줄이고, 결론 통합을 강화하며, 문제 특정 전략을 추론에서 촉진하는 것으로 나타났다.

시사점, 한계점

LLM의 추론 능력을 향상시키기 위한 새로운 프레임워크인 RAVR 제시.
답 조건 추론을 통해 학습 가능한 문제로 변환하는 방법론 제시.
일반 및 수학 도메인에서 기존 방법 대비 성능 향상 입증.
RAVR의 추론 행동 분석을 통해 망설임 감소, 결론 통합 강화, 문제 특정 전략 촉진 확인.
논문의 구체적인 한계점은 명시되지 않음.
👍