haebom
Sign In
Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning
Created by
Haebom
Category
Empty
저자
Renos Zabounidis, Aditya Golatkar, Michael Kleinman, Alessandro Achille, Wei Xia, Stefano Soatto
Re-FORC: Adaptive Reward Prediction for Reasoning Models
개요
본 논문은 주어진 컨텍스트에서 미래 사고 토큰 수에 대한 예상 미래 보상을 예측하는 적응형 보상 예측 방법인 Re-FORC를 제안합니다. Re-FORC는 추론 모델에 경량 어댑터를 훈련시켜, 더 긴 추론과 더 큰 모델로 예측 성능을 향상시킵니다.
시사점, 한계점
•
시사점:
◦
유망하지 않은 추론 체인의 조기 중단을 통해 계산량 26% 감소 및 정확도 유지.
◦
최적화된 모델 및 사고 길이 선택을 통해 동일한 계산량에서 정확도 4% 향상, 동일한 정확도에서 계산량 55% 감소.
◦
적응형 테스트 시점 스케일링을 통해 고성능 환경에서 11%, 저성능 환경에서 7% 정확도 향상.
◦
토큰당 비용 임계값을 사용하여 계산 시간을 사전에 추정하면서 길이 제어가 가능한 동적 추론 가능.
•
한계점:
◦
구체적인 한계점은 논문 요약에서 명시되지 않음. (논문에 직접적인 한계점 언급은 없음)
PDF 보기
Made with Slashpage