본 논문은 대규모 언어 모델(LLM)의 도구 학습 능력을 평가하기 위한 새로운 벤치마크인 FamilyTool을 제시합니다. FamilyTool은 가족 기반 지식 그래프(KG)를 기반으로 하며, 다단계 추론과 동적인 환경에서의 유도적 지식 적응을 필요로 하는 개인화된 시나리오를 시뮬레이션합니다. 기존 벤치마크의 한계를 극복하기 위해, FamilyTool은 14단계(기본 데이터셋) 및 26단계(확장 데이터셋)의 관계적 홉을 포함하는 질의를 통해 LLM의 능력을 평가하고, 재훈련 없이 새로운 사용자 선호도 및 관계에 적응해야 하는 유도적 KG 설정을 도입합니다. 또한, 이러한 설정에서 LLM의 도구 사용 능력을 체계적으로 평가하기 위한 KGETool이라는 평가 파이프라인을 제안합니다. 실험 결과, 최첨단 LLM에서도 홉의 복잡성이 증가함에 따라 정확도가 급격히 감소하고, 유도적 시나리오에서는 심각한 일반화 부족이 드러났습니다. 이는 현재 LLM이 개인화되고 진화하는 실제 환경을 처리하는 데 한계가 있음을 보여주며, 도구 학습 프레임워크의 발전이 시급함을 강조합니다. FamilyTool은 복잡하고 동적인 환경에서 LLM 에이전트의 추론, 적응성 및 확장성을 평가하고 발전시키는 데 중요한 자원으로 활용될 수 있습니다. 코드와 데이터셋은 GitHub에서 공개됩니다.