본 논문은 복잡한 질문에 대한 답변을 위해 기존 지식과의 연관성을 활용하는 사람의 사고 과정을 모방하여, 과학적 질문 해결에 어려움을 겪는 대규모 언어 모델(LLM)의 성능을 향상시키는 새로운 프레임워크인 Self-GIVE를 제안합니다. Self-GIVE는 강화 학습 기반의 retrieve-RL 프레임워크로, 지식 그래프(KG)를 활용하여 구조화된 정보와 개체 집합을 추출하여 LLM이 질문 개념과 연결하는 것을 돕습니다. 기존의 Graph Inspired Veracity Extrapolation (GIVE)의 효율성 및 일반화 한계를 극복하기 위해, LLM 호출 횟수와 토큰 오버헤드를 줄이고, 소규모 LLM에서도 적용 가능하도록 설계되었습니다. UMLS KG를 사용하여 Self-GIVE로 미세 조정한 결과, Qwen2.5 3B 및 7B 모델의 성능이 괄목할 만하게 향상되었으며, 특히 7B 모델은 GIVE를 사용한 GPT3.5 turbo와 비슷하거나 뛰어난 성능을 보였습니다.