본 논문은 화학 문제 해결을 위한 대규모 언어 모델(LLM) 향상을 목적으로, ChemCrow와 Coscientist와 같은 도구를 활용한 여러 LLM 기반 에이전트가 제안되었으나, 그 평가 범위가 좁다는 점을 지적하며, 다양한 화학 과제에 걸쳐 도구 활용의 이점을 이해하는 데 있어 큰 차이가 있음을 강조합니다. 이러한 간극을 해소하기 위해 ChemCrow를 개선한 ChemToolAgent를 개발하고, 전문적인 화학 과제와 일반적인 화학 질문 모두에 대한 성능을 종합적으로 평가합니다. 놀랍게도 ChemToolAgent는 도구 없이 기본 LLM보다 일관되게 성능이 우수하지 않았으며, 화학 전문가와의 오류 분석을 통해 합성 예측과 같은 전문적인 화학 과제의 경우 전문 도구를 에이전트에 추가해야 하지만, 시험과 같은 일반적인 화학 질문의 경우 에이전트의 화학 지식을 정확하게 추론하는 능력이 더 중요하며, 도구 추가가 항상 도움이 되는 것은 아님을 밝힙니다.