본 논문은 화학 문제 해결을 위한 대규모 언어 모델(LLM)을 향상시키기 위해 도구를 추가한 ChemCrow 및 Coscientist와 같은 여러 LLM 기반 에이전트가 제안되었으나, 그 평가의 범위가 좁다는 점을 지적합니다. 이러한 한계를 극복하기 위해, 본 연구는 ChemCrow를 개선한 ChemToolAgent를 개발하고, 전문적인 화학 과제와 일반적인 화학 문제에 대한 성능을 종합적으로 평가합니다. 놀랍게도, ChemToolAgent는 도구 없이 기본 LLM보다 일관되게 성능이 우수하지 않았습니다. 화학 전문가와의 오류 분석 결과, 합성 예측과 같은 전문적인 화학 과제에는 전문 도구를 추가하는 것이 유용하지만, 시험 문제와 같은 일반적인 화학 문제에는 화학 지식을 바탕으로 정확하게 추론하는 에이전트의 능력이 더 중요하며, 도구 추가가 항상 도움이 되는 것은 아님을 시사합니다.