ESSAM: A Novel Competitive Evolution Strategies Approach to Reinforcement Learning for Memory Efficient LLMs Fine-Tuning

작성자

Haebom

카테고리

Empty

저자

Zhishen Sun, Sizhe Dang, Guang Dai, Haishan Ye

💡 개요

본 논문은 GPU 메모리 사용량이 높은 강화학습(RL) 기반 LLM 미세조정의 문제를 해결하기 위해, 진화 전략(ES)의 제로-오더 탐색과 날카로움 인식 최대화(SAM)를 결합한 ESSAM 프레임워크를 제안합니다. ESSAM은 GSM8K 데이터셋에서 RL 방법론과 비교 가능한 성능을 달성하면서도 GPU 메모리 사용량을 획기적으로 줄였습니다. 추가적인 일반화 실험에서도 ESSAM으로 학습된 모델은 더 우수한 일반화 성능을 보여주었습니다.

🔑 시사점 및 한계

•

제한된 GPU 메모리 환경에서도 LLM의 수학적 추론 능력을 효과적으로 향상시킬 수 있는 새로운 미세조정 방법을 제시합니다.

•

제안된 ESSAM은 기존 RL 기반 방법 대비 성능 저하 없이 메모리 사용량을 크게 절감하여 접근성을 높입니다.

•

빠른 변형 모델은 성능을 유지하면서도 연산 속도를 향상시키는 잠재력을 보여줍니다.

•

본 연구는 주로 수학적 추론 태스크에 초점을 맞추었으므로, 다양한 LLM 태스크에 대한 ESSAM의 일반화 성능 검증이 추가적으로 필요합니다.

PDF 보기

Made with Slashpage