Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond path selection: Better LLMs for Scientific Information Extraction with MimicSFT and Relevance and Rule-induced(R$^2$)GRPO

Created by
  • Haebom

저자

Ran Li, Shimin Di, Yuchen Liu, Chen Jing, Yu Qiu, Lei Chen

개요

본 논문은 강화 학습 기반 보상(RLVR)을 사용한 대규모 언어 모델(LLM)의 수학적 추론 능력 향상에 대한 기존 연구 결과를 바탕으로, 과학 정보 추출(SciIE) 작업에서 LLM과 추론 LLM이 소규모 Bert 기반 모델보다 성능이 떨어지는 현상에 주목합니다. SciIE는 추론과 암기 능력 모두를 필요로 하는데, 본 논문은 SFT(Supervised Fine-tuning)와 RLVR이 SciIE를 기반으로 추론 경로를 개선하고 추론 능력을 향상시킬 수 있다고 주장합니다. 이를 위해 구조화된 추론 템플릿을 사용하는 MimicSFT와 관련성 및 규칙 기반 보상을 사용하는 R²GRPO라는 두 단계 학습 방법을 제안합니다. 과학 정보 추출 벤치마크 실험 결과, 두 방법 모두 추론 능력을 향상시키며, 특히 MimicSFT와 함께 사용된 R²GRPO는 기존 LLM과 전문적인 감독 학습 모델보다 관계 추출 성능이 뛰어남을 보였습니다. 소스 코드는 https://github.com/ranlislz/R2GRPO 에서 확인 가능합니다.

시사점, 한계점

시사점:
SFT와 RLVR을 결합하여 LLM의 추론 능력을 향상시킬 수 있는 새로운 방법 제시.
고품질 chain-of-thought 데이터 없이도 구조화된 추론 템플릿을 이용하여 LLM의 성능을 향상시킬 수 있음을 보임.
제안된 방법이 과학 정보 추출 작업에서 기존 모델들을 능가하는 성능을 달성함.
한계점:
제안된 방법의 효과가 과학 정보 추출 작업에 국한될 가능성. 다른 작업 영역으로의 일반화 가능성에 대한 추가 연구 필요.
R²GRPO의 보상 설계에 대한 자세한 설명 부족. 보상 함수의 설계가 성능에 미치는 영향에 대한 추가 분석 필요.
MimicSFT의 구조화된 추론 템플릿 설계에 대한 세부적인 내용이 부족하여 재현성에 대한 검토가 필요.
👍