MemReward: Graph-Based Experience Memory for LLM Reward Prediction with Limited Labels

작성자

Haebom

카테고리

Empty

저자

Tianyang Luo, Tao Feng, Zhigang Hua, Yan Xie, Shuang Yang, Ge Liu, Jiaxuan You

💡 개요

본 논문은 레이블이 부족한 상황에서 대규모 언어 모델(LLM)의 강화학습 기반 미세 조정을 위한 'MemReward'라는 새로운 프레임워크를 제안합니다. MemReward는 롤아웃(사고 과정 및 최종 답변)을 노드로, 유사도 및 구조적 관계를 엣지로 하는 그래프에 저장하고, 그래프 신경망(GNN)을 사용하여 레이블이 없는 롤아웃에 대한 보상을 예측하여 레이블 정보를 전파합니다. 이 접근 방식은 제한된 레이블 데이터로도 높은 성능을 달성하며, 특히 수학, 질문 답변, 코드 생성과 같은 복잡한 작업에서 효과적입니다.

🔑 시사점 및 한계

•

데이터 효율적인 RL 미세 조정: 레이블이 부족한 환경에서도 LLM의 강화학습 기반 미세 조정 성능을 크게 향상시킬 수 있음을 보여주었습니다.

•

추론 과정의 활용: 롤아웃의 전체 추론 과정(생각하는 과정)을 그래프의 노드로 활용하여 보상 예측의 정확도를 높이는 새로운 접근 방식을 제시했습니다.

•

범용적인 적용 가능성: 수학, 질문 답변, 코드 생성 등 다양한 도메인에서 실험을 통해 MemReward의 범용적인 적용 가능성을 입증했습니다.

•

GNN의 예측 오류: GNN이 예측한 보상에는 여전히 오류가 포함될 수 있으며, 이는 전반적인 미세 조정 성능에 영향을 미칠 수 있습니다.

•

그래프 구축 및 GNN 학습의 복잡성: 대규모 롤아웃 데이터를 그래프로 구축하고 GNN을 효과적으로 학습시키는 과정에 추가적인 계산 자원과 최적화가 필요할 수 있습니다.

•

새로운 도메인에서의 성능: 아직 검증되지 않은 새로운 도메인이나 작업 유형에 대해서는 성능을 추가적으로 검증해야 할 필요가 있습니다.

PDF 보기

Made with Slashpage