ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

작성자

Haebom

카테고리

Empty

저자

Wanghan Xu, Yuhao Zhou, Hengyuan Zhao, Shuo Li, Dianzhi Yu, Zhenfei Yin, Yaowen Hu, Fengli Xu, Wanli Ouyang, Wenlong Zhang, Lei Bai

💡 개요

본 연구는 대규모 언어 모델(LLM)이 사용자의 비판에 잘못된 방향으로 전환되는 문제, 즉 처음에는 정답을 제시했지만 비판 이후 틀린 답변으로 전환되는 현상에 주목합니다. 이를 해결하기 위해 최종 답변의 정확성보다는 턴 간의 정확도 전환을 핵심 문제로 설정하고, 이를 해결하는 전환 인식 강화 학습 프레임워크인 ReCrit을 제안합니다. ReCrit은 효과적인 수정과 맹목적인 추종을 구분하고, 과학적 추론에서 LLM의 신뢰성을 높이는 데 기여합니다.

🔑 시사점 및 한계

•

전환 인식 강화 학습의 중요성: 과학적 추론에서 LLM의 성능은 단순히 최종 답변의 정확성뿐만 아니라, 사용자의 비판에 얼마나 잘 적응하고 정확도를 유지하는지에 달려있습니다. ReCrit은 이러한 전환 과정을 명확히 인식하고 학습하는 것의 중요성을 입증했습니다.

•

맹목적 추종(Sycophancy) 방지 및 견고성 확보: ReCrit은 유용한 수정과 맹목적인 추종을 구분하여, LLM이 잘못된 비판에도 흔들리지 않고 견고성을 유지하도록 돕습니다. 이는 과학적 추론의 신뢰도를 높이는 데 필수적입니다.

•

실용적인 상호작용 훈련: 동적 비동기 롤아웃과 꼬리 적응 완료 기법을 통해 상호작용 훈련의 효율성을 높여, 실제 적용 가능성을 확대했습니다.

•

데이터 효율성 및 일반화: ReCrit은 화학, 물리, 지구과학 등 다양한 과학적 추론 벤치마크에서 성능 향상을 보여, 제안된 방법론의 일반화 가능성을 시사합니다.

PDF 보기

Made with Slashpage