# TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL

### 저자

Lang Cao, Hui Ruan, Yongqian Li, Peng Chao, Wu Ning, Haonan Song, Renhong Chen, Yitong Li

### 💡 개요

본 논문은 그룹 기반 강화학습에서 발생하는 표본 비효율성과 길이 편향 문제를 해결하기 위해 TreeAdv를 제안합니다. TreeAdv는 그룹 롤아웃의 트리 구조를 명시적으로 활용하여 탐색과 어드밴티지 할당을 개선하며, 특히 불확실한 결정 지점에서 분기하고 불확실성이 낮은 토큰은 공유하는 방식으로 작동합니다. 이를 통해 GRPO 및 GSPO와 같은 기존 방법론보다 우수한 성능을 보이면서도 더 적은 토큰으로 동일한 감독 수준을 달성했습니다.

### 🔑 시사점 및 한계

- 그룹 기반 강화학습에서 롤아웃의 트리 구조를 활용하는 것이 표본 효율성과 모델의 논리적 깊이를 향상시키는 데 효과적입니다.

- TreeAdv는 불확실성 기반 샘플링과 어드밴티지 재분배를 통해 제한된 자원으로 더 나은 성능을 달성할 수 있습니다.

- 논문에서 제시된 트리 구조화 방식의 일반화 가능성 및 다양한 종류의 복잡한 추론 작업에 대한 적용 가능성은 추가 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2601.03703)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
