Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Steering LLM Reasoning Through Bias-Only Adaptation

Created by
  • Haebom

저자

Viacheslav Sinii, Alexey Gorbatovski, Artem Cherepanov, Boris Shaposhnikov, Nikita Balagansky, Daniil Gavrilov

개요

본 논문은 reasoning-oriented language model에서 강화학습(RL) fine-tuning이 새로운 능력을 생성하는 것이 아니라 사전 학습된 네트워크에 이미 잠재되어 있는 추론 패턴을 강화한다는 주장을 검증합니다. 이를 위해, 기존 가중치는 변경하지 않고 선택된 은닉 특징을 더하는 방식으로 계층별 편향을 조정하는 steering vector를 학습합니다. GSM8K 및 MATH 벤치마크에서 네 가지 기본 모델을 사용한 실험 결과, steering vector는 완전히 fine-tuning된 모델의 정확도를 회복하고, 심지어 일부 경우에는 능가하는 것을 보여줍니다. 이는 필요한 추론 능력이 기본 모델에 이미 존재한다는 견해를 뒷받침합니다. 또한 logit-lens 분석을 통해 학습된 벡터가 구조화된 언어 및 논리적 연결어와 관련된 토큰 그룹을 일관되게 강화하는 것을 확인하여, 정량적 추론 작업의 요구 사항과 일치하는 해석 가능한 설명을 제공합니다.

시사점, 한계점

시사점:
강화학습 fine-tuning이 새로운 능력을 생성하는 것이 아니라 기존 잠재된 능력을 강화한다는 것을 보여줍니다.
Steering vector를 이용하여 RL fine-tuning의 효과를 효율적으로 모방할 수 있음을 제시합니다.
Logit-lens 분석을 통해 추론 과정에 대한 해석 가능성을 높였습니다.
사전 학습된 모델의 잠재력을 탐색하는 새로운 방법을 제시합니다.
한계점:
제한된 벤치마크(GSM8K 및 MATH)에서만 실험을 수행했습니다.
다양한 모델 아키텍처와 과제에 대한 일반화 가능성을 추가적으로 검증할 필요가 있습니다.
Steering vector 학습의 효율성 및 scaling 문제에 대한 추가 연구가 필요합니다.
👍