본 논문은 값비싼 블랙박스 함수의 최적화를 위한 새로운 베이지안 최적화(BO) 프레임워크인 Reasoning BO를 제안합니다. Reasoning BO는 다중 에이전트 시스템과 지식 그래프를 활용하여 온라인 지식 축적을 수행하고, 대규모 언어 모델(LLM)의 추론 능력을 통합하여 BO 과정을 안내합니다. 실험 결과, Reasoning BO는 합성 수학 함수와 실제 응용 프로그램을 포함한 10가지 다양한 작업에서 기존 BO보다 우수한 성능을 보였으며, 특히 Direct Arylation 작업에서 기존 BO의 25.2% 수율 대비 60.7%의 수율을 달성했습니다. 또한, 강화 학습을 통해 미세 조정된 소규모 LLM이 대규모 LLM과 비슷한 성능을 달성할 수 있음을 보였습니다.