# Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning

### 저자

Yuan Zhuang, Yuexin Bian, Sihong He, Jie Feng, Qing Su, Songyang Han, Jonathan Petit, Shihao Ji, Yuanyuan Shi, Fei Miao

### 💡 개요

본 논문은 오프라인 강화학습(RL)에서 비평가(critic) 모델의 용량 증가가 불안정성을 야기하는 문제를 해결하기 위해 Low-Rank Adaptation (LoRA) 기법을 제안한다. LoRA는 랜덤 초기화된 기본 행렬을 고정하고 저차원 어댑터만 최적화하여 비평가 업데이트를 저차원 부분 공간으로 제약한다. 이를 통해 비평가 손실을 효과적으로 줄이고 정책 성능을 향상시켜 대부분의 태스크에서 경쟁력 있는 결과를 달성했다.

### 🔑 시사점 및 한계

- LoRA는 오프라인 RL에서 비평가 모델의 구조적 정규화(structural regularization)를 위한 간단하고 효과적인 방법을 제공한다.

- 저차원 어댑터 학습을 통해 비평가의 과적합(overfitting) 및 불안정성 문제를 완화하며, 기존 알고리즘의 성능을 개선한다.

- 제안된 방법의 효과는 다양한 알고리즘 및 네트워크 구조에 걸쳐 입증되었으나, 실제 적용 시 최적의 저랭크(low-rank) 차원 탐색 및 추가적인 하이퍼파라미터 튜닝이 필요할 수 있다.

[PDF 보기](https://arxiv.org/pdf/2604.18978)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).