ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Jianbo Lin, Xiaomin Yu, Yi Xin, Yifu Guo, Zhuosong Jiang, Zhongqi Yue, Weishi Wang, Heqing Zou, Chengwei Qin, Hui Xiong

💡 개요

대규모 언어 모델(LLM) 기반 에이전트는 오류를 범하지만, 비평(critique)을 통해 올바른 행동으로 유도될 수 있습니다. 그러나 비평이 제거되면 동일한 오류를 반복하는 문제가 있습니다. 본 논문은 강화학습을 사용하여 자기 비평을 내면화하는 새로운 프레임워크인 ICRL을 제안하며, 이를 통해 비평에 의존하지 않고 스스로 성능을 향상시키는 능력을 학습합니다.

🔑 시사점 및 한계

•

핵심 시사점 1: ICRL 프레임워크는 비평으로부터의 성공을 솔버의 독자적인 능력으로 전환시켜, 비평 제거 시에도 성능 저하를 방지합니다.

•

핵심 시사점 2: 제안된 메커니즘(분포 보정 재가중치 및 역할별 그룹 어드밴티지 추정)을 통해 솔버는 비평에 의존하는 대신 자체적인 개선을 학습할 수 있습니다.

•

한계점 또는 향후 과제: 제안된 방법론은 다양한 벤치마크에서 일관된 성능 향상을 보였으나, 더 복잡하고 다양한 유형의 오류에 대한 일반화 성능 향상 및 비평 생성 모델의 추가적인 개선 가능성에 대한 연구가 필요합니다.

PDF 보기

Made with Slashpage