Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment

Created by
  • Haebom

저자

Shikun Li, Shipeng Li, Zhiqin Yang, Xinghua Zhang, Gaode Chen, Xiaobo Xia, Hengyu Liu, Zhe Peng

개요

본 논문은 강화 학습(RL)을 통해 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 과정에서 발생하는 데이터 비효율성 문제를 해결하기 위해, 새로운 기울기 정렬 기반 방법인 LearnAlign을 제시합니다. LearnAlign은 RL 후속 학습을 위한 학습 가능하고 대표적인 추론 데이터를 선택적으로 사용합니다. 기울기 규범에서의 응답 길이 편향 문제를 해결하기 위해, 각 데이터 포인트의 학습 가능성을 성공률을 기반으로 판단합니다. 세 가지 수학적 추론 벤치마크에 대한 실험 결과, LearnAlign은 전체 데이터 학습과 비교하여 성능 저하 없이 또는 성능 향상까지 이루면서 학습 데이터 요구량을 크게 줄이는 것을 보여줍니다. 예를 들어, GSM8K 벤치마크에서 전체 데이터셋(77.04%)보다 높은 성능(77.53%)을 달성하면서 최대 1,000개의 데이터 포인트까지 학습 데이터 요구량을 줄였습니다. 또한, 단계적 RL 설정에서의 효과도 보여줍니다. 본 연구는 데이터 효율적인 RL 후속 학습에 대한 귀중한 통찰력을 제공하며, 추론 데이터 선택 최적화에 대한 미래 연구의 기반을 마련합니다. 코드는 공개될 예정입니다.

시사점, 한계점

시사점:
기울기 정렬 기반의 새로운 데이터 선택 방법인 LearnAlign을 제시하여 RL 기반 LLM 추론 학습의 데이터 효율성을 크게 향상시켰습니다.
응답 길이 편향 문제를 성공률 기반의 데이터 학습 가능성으로 해결하여 더욱 정확한 데이터 선택이 가능해졌습니다.
다양한 수학적 추론 벤치마크에서 전체 데이터셋 대비 성능 저하 없이 또는 성능 향상을 보이며 데이터 요구량 감소 효과를 검증했습니다.
단계적 RL 설정에서도 효과적임을 확인했습니다.
향후 연구를 위한 코드 공개 계획
한계점:
제시된 방법의 일반성 및 다른 유형의 추론 작업에 대한 적용 가능성에 대한 추가적인 연구가 필요합니다.
성공률 기반의 데이터 학습 가능성 평가가 모든 상황에 적용 가능한지에 대한 추가적인 검토가 필요합니다.
현재는 수학적 추론에 국한된 실험 결과이며, 다른 도메인으로 확장하기 위한 추가 연구가 필요합니다.
👍