Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Created by

Haebom

저자

Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao

💡 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 강화학습(RLVR) 방법론의 한계점을 지적합니다. 기존 RLVR은 오류의 원인을 파악하고 경험을 내재화하는 메타 학습 과정이 부족하여 세밀한 신용 할당과 재사용 가능한 지식 형성에 제약이 있다는 점을 발견했습니다. 이를 해결하기 위해, 저자들은 과거 오류에서 파생된 재사용 가능한 지식인 "메타 경험"을 모델의 파라미터 메모리에 통합하는 새로운 프레임워크인 Meta-Experience Learning (MEL)을 제안합니다.

🔑 시사점 및 한계

•

MEL은 LLM의 자기 검증 능력을 활용하여 올바른 추론 경로와 오류가 발생한 경로를 대조 분석하고, 이를 일반화 가능한 메타 경험으로 요약합니다.

•

요약된 메타 경험은 모델의 파라미터 메모리에 통합되어, 올바른 추론과 잘못된 추론 사이의 격차를 해소하고 효과적인 지식 재사용을 촉진합니다.

•

실험 결과, MEL은 다양한 모델 크기에서 일관적으로 3.92%~4.73%의 Pass@1 성능 향상을 보여 LLM의 추론 능력을 크게 개선함을 입증했습니다.

•

향후 과제로는 메타 경험을 학습하는 과정에서 발생할 수 있는 추가적인 복잡성이나, 다양한 종류의 오류에 대한 메타 경험 학습의 일반화 가능성을 탐구하는 것이 필요합니다.

PDF 보기

Made with Slashpage