본 논문은 강화학습을 사용하여 계층별로 단일 $d$-차원 조향 벡터만 학습시키고 기저 가중치는 고정하는 방법을 제시합니다. 이 방법은 수학적 추론 과제에서 완전히 강화학습으로 조정된 추론 모델의 정확도에 맞먹는 성능을 보여줍니다. 80억 매개변수 모델에서 추가 매개변수는 약 0.0016%에 불과하며, 다양한 기저 모델과 수학적 추론 벤치마크에서 성능을 재현합니다. 이러한 결과는 고차원 사고연쇄 추론에 필요한 매개변수 예산의 상한선을 좁히며, 수백만 개의 어댑터 가중치가 불필요함을 시사합니다. 최소한의 학습 가능한 공간은 최적화기 메모리와 GPU 간 통신을 줄여 미세 조정의 전반적인 비용을 낮춥니다. 또한 로짓-렌즈 분석을 통해 학습된 벡터가 일관된 토큰 방향을 증폭하여 모델의 내부 계산에 대한 명확한 통찰력을 제공함을 보여줍니다.
시사점, 한계점
•
시사점: 고차원 사고연쇄 추론을 위한 효율적인 파라미터 학습 방법 제시. 기존 대비 극히 적은 파라미터 추가로 동등한 성능 달성. 미세 조정 비용 절감. 모델 내부 작동 원리에 대한 이해 증진.
•
한계점: 제시된 방법의 일반화 성능에 대한 추가적인 연구 필요. 다양한 유형의 추론 과제에 대한 성능 평가 필요. 특정 유형의 수학적 추론에 국한된 결과일 가능성 존재.