Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization
Created by
Haebom
저자
Shaohua Duan, Xinze Li, Zhenghao Liu, Xiaoyuan Yi, Yukun Yan, Shuo Wang, Yu Gu, Ge Yu, Maosong Sun
개요
본 논문은 긴 문맥을 다루는 모델링의 성능 향상을 위해 Multi-Armed Bandit (MAB)과 Direct Preference Optimization (DPO)를 결합한 새로운 프레임워크인 LongMab-PO를 제안합니다. 기존의 합성 데이터를 이용한 Fine-tuning 방식의 한계인 낮은 다양성과 사실의 불일치 문제를 해결하기 위해, MAB를 활용하여 긴 문맥에서 가장 정보가 풍부한 부분을 선택적으로 활용하여 고품질의 다양한 응답을 생성하고, 이를 DPO를 통해 학습 데이터로 활용합니다. MAB를 통해 문맥 조각을 선택하고, 생성된 응답에 대한 보상 피드백을 기반으로 점수를 업데이트하는 과정을 반복하여 가장 관련성 높은 문맥 부분에 집중함으로써 고품질의 다양한 응답을 생성하고 수집합니다. 실험 결과, LongMab-PO는 긴 문맥 추론 벤치마크에서 최첨단 성능을 달성하며, 기존 방식보다 훨씬 우수한 다양성과 품질의 선호도 데이터 쌍을 생성하는 것을 보여줍니다. 소스 코드와 데이터는 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
MAB와 DPO를 결합하여 합성 데이터 기반 LLM fine-tuning의 한계를 극복하는 새로운 접근 방식 제시.
◦
긴 문맥 추론 작업에서 최첨단 성능 달성.
◦
고품질 및 다양한 선호도 데이터 쌍 생성을 통해 LLM 성능 향상.
◦
공개된 코드와 데이터를 통해 재현성 및 추가 연구 가능.
•
한계점:
◦
제안된 방법의 효과는 특정 벤치마크에 국한될 수 있음. 다른 유형의 장문맥 작업에 대한 일반화 성능은 추가 연구가 필요함.
◦
MAB의 효율성은 보상 함수의 설계에 크게 의존하며, 최적의 보상 함수를 찾는 것은 어려울 수 있음.
◦
DPO의 계산 비용이 높을 수 있으며, 대규모 데이터셋에 적용하는 데 어려움이 있을 수 있음.