# Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization

### 저자

Shaohua Duan, Pengcheng Huang, Xinze Li, Zhenghao Liu, Xiaoyuan Yi, Yukun Yan, Shuo Wang, Yu Gu, Ge Yu, Maosong Sun

### 💡 개요

본 논문은 긴 문맥을 다루는 LLM의 성능을 향상시키기 위해, 다중 팔 슬롯머신(Multi-Armed Bandit, MAB) 전략을 활용하여 가장 유익한 문맥 조각을 샘플링하는 새로운 프레임워크인 LongMab을 제안한다. LongMab은 문맥 조각을 슬롯머신의 팔(arm)로 취급하고, 각 조각의 기대 보상 점수를 기반으로 응답을 생성하여 고품질의 다양한 선호도 데이터 쌍을 구축한다. 이를 통해 LLM이 가장 관련성 높은 문맥에 집중하도록 유도하여 긴 문맥 추론 능력에서 4% 이상의 성능 향상을 달성했다.

### 🔑 시사점 및 한계

- 긴 문맥 LLM의 데이터 생성 및 선호도 학습 과정에서 MAB를 적용하여 정보 탐색 및 활용의 효율성을 높일 수 있음을 시사한다.

- 제안된 LongMab 프레임워크는 LLM이 긴 문맥 내에서 중요한 정보를 효과적으로 추출하고 다양한 응답을 생성하도록 돕는다.

- MAB 전략의 탐험(exploration)과 활용(exploitation) 균형을 효과적으로 조절하는 것이 고품질 데이터 생성을 위한 핵심 과제이며, 실제 적용 시 추가적인 튜닝이 필요할 수 있다.

---

[PDF 보기](https://arxiv.org/pdf/2508.13993)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).