AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

Author

Haebom

저자

Peilin Wu, Xinlu Zhang, Kun Wan, Wentian Zhao, Gang Wu, Xinya Du, Zhiyu Chen

💡 개요

기존 루브릭 기반 강화학습에서 보상 신호 생성 시 지역적 정보만 활용하여 장기적인 학습 과정에서의 진단 정보를 놓치는 문제를 해결하기 위해, AMARIS는 시계열적인 학습 증거를 기반으로 루브릭을 개선하는 메모리 증강 시스템을 제안합니다. AMARIS는 롤아웃 분석, 단계별 요약, 루브릭 업데이트 기록을 영구적인 평가 메모리에 저장하고, 이를 바탕으로 최신 및 의미상 관련 있는 과거 기록을 검색하여 루브릭을 수정합니다. 과학, 의학, 지시 따르기, 창의적 글쓰기 등 다양한 영역에서 기존 방법론 대비 성능 향상을 입증했으며, 특히 메모리 기능이 루브릭 편집의 진동을 줄이고 학습 초기 단계의 실패 교정에서 후기 단계의 커리큘럼 발전으로의 전환을 지원함을 보여줍니다.

🔑 시사점 및 한계

•

AMARIS는 루브릭 기반 강화학습에서 학습 과정 전반에 걸친 정보를 활용하여 루브릭 개선의 효율성과 효과성을 높였습니다.

•

장기적인 학습 데이터 축적을 통해 반복되는 실패 패턴을 파악하고, 루브릭 기준을 점진적으로 상향 조정하는 데 기여할 수 있습니다.

•

비동기적인 업데이트 방식을 통해 기존 강화학습 루프의 지연 시간을 최소화하면서도 루브릭 개선을 수행할 수 있습니다.

•

향후 연구에서는 AMARIS가 생성하는 진단 정보의 해석 가능성을 더욱 높이거나, 다양한 종류의 LLM 작업에 대한 일반화 성능을 탐구할 필요가 있습니다.

PDF 보기

Made with Slashpage