본 논문은 대규모 언어 모델(LLM)을 활용한 비디오 이해 연구의 발전에 따라, 사전 훈련된 전문 모델(도구) 사용 능력 탐색에 중점을 둔 비디오 LLM을 제안합니다. 기존 방법들은 폐쇄형 소스 LLM을 활용하거나 지시어 튜닝 방식을 통해 도구 사용을 미세 조정하지만, 고정된 도구 저장소를 가정하고 실시간으로 변화하는 도구 데이터에 일반화하는 데 어려움을 겪습니다. 이를 해결하기 위해, 본 논문에서는 과거 학습된 도구를 '망각'하지 않고 연속적인 도구 스트림에서 자동으로 도구 사용 능력을 습득하는 지속적 도구 사용(COLT)을 통해 오픈소스 비디오 LLM을 향상시키는 방법을 제안합니다. COLT는 도구 특정 메모리 시스템으로 학습 가능한 도구 코드북을 통합하고, 사용자 지시어와 코드북 내 도구 특징 간 유사성을 기반으로 관련 도구를 동적으로 선택합니다. 비디오 중심 도구 사용 지시어 튜닝 데이터셋인 VideoToolBench를 수집하여 비디오 LLM의 도구 사용 잠재력을 실현하고, 기존 비디오 LLM 벤치마크와 VideoToolBench 데이터셋에서 최첨단 성능을 보여줍니다.