Beyond path selection: Better LLMs for Scientific Information Extraction with MimicSFT and Relevance and Rule-induced(R$^2$)GRPO
Created by
Haebom
저자
Ran Li, Shimin Di, Yuchen Liu, Chen Jing, Yu Qiu, Lei Chen
개요
본 논문은 강화 학습 기반 보상(RLVR)을 사용한 대규모 언어 모델(LLM)의 수학적 추론 능력 향상에 대한 기존 연구 결과를 바탕으로, 과학 정보 추출(SciIE) 작업에서 LLM과 추론 LLM이 소규모 Bert 기반 모델보다 성능이 떨어지는 현상에 주목합니다. SciIE는 추론과 암기 능력 모두를 필요로 하는데, 본 논문은 SFT(Supervised Fine-tuning)와 RLVR이 SciIE를 기반으로 추론 경로를 개선하고 추론 능력을 향상시킬 수 있다고 주장합니다. 이를 위해 구조화된 추론 템플릿을 사용하는 MimicSFT와 관련성 및 규칙 기반 보상을 사용하는 R²GRPO라는 두 단계 학습 방법을 제안합니다. 과학 정보 추출 벤치마크 실험 결과, 두 방법 모두 추론 능력을 향상시키며, 특히 MimicSFT와 함께 사용된 R²GRPO는 기존 LLM과 전문적인 감독 학습 모델보다 관계 추출 성능이 뛰어남을 보였습니다. 소스 코드는 https://github.com/ranlislz/R2GRPO 에서 확인 가능합니다.