기존 루브릭 기반 강화학습에서 보상 신호 생성 시 지역적 정보만 활용하여 장기적인 학습 과정에서의 진단 정보를 놓치는 문제를 해결하기 위해, AMARIS는 시계열적인 학습 증거를 기반으로 루브릭을 개선하는 메모리 증강 시스템을 제안합니다. AMARIS는 롤아웃 분석, 단계별 요약, 루브릭 업데이트 기록을 영구적인 평가 메모리에 저장하고, 이를 바탕으로 최신 및 의미상 관련 있는 과거 기록을 검색하여 루브릭을 수정합니다. 과학, 의학, 지시 따르기, 창의적 글쓰기 등 다양한 영역에서 기존 방법론 대비 성능 향상을 입증했으며, 특히 메모리 기능이 루브릭 편집의 진동을 줄이고 학습 초기 단계의 실패 교정에서 후기 단계의 커리큘럼 발전으로의 전환을 지원함을 보여줍니다.