본 논문은 대규모 언어 모델(LLM)의 기능을 확장하기 위한 유망한 방법으로 떠오른 툴 학습에 대해 다룹니다. 기존의 툴 학습 접근 방식은 주로 툴을 효과적으로 호출하도록 LLM을 미세 조정하기 위한 데이터 합성에 초점을 맞추었지만, 모델의 잠재력을 완전히 자극하는 방법은 크게 무시했습니다. 이에 본 논문에서는 툴 호출을 위한 적응적 자기 개선을 도입하는 새로운 방법인 ToolACE-R을 제안합니다. ToolACE-R은 모델의 진화하는 기능에 따라 점진적으로 더 많은 훈련 샘플을 통합하는 모델 인식 반복 훈련 절차를 특징으로 합니다. 또한, 외부 피드백 없이 성능을 최적화하기 위해 LLM이 툴 호출을 반복적으로 개선할 수 있도록 합니다. 추론 시간을 조정할 때 적응 메커니즘을 통합하여 모델이 개선 프로세스를 언제 중지할지 자율적으로 결정할 수 있도록 함으로써 계산 효율성을 더욱 향상시킵니다. 여러 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 ToolACE-R이 어떤 개선 없이도 고급 API 기반 모델과 비교하여 경쟁력 있는 성능을 달성함을 보여줍니다. 또한, 적응적 자기 개선을 통해 효율적으로 성능을 더욱 향상시킬 수 있습니다. 결과는 다양한 크기의 기본 모델과 호환되는 제안된 방법의 효과를 보여주며, 보다 효율적인 툴 학습을 위한 유망한 방향을 제시합니다.
시사점, 한계점
•
시사점:
◦
모델의 진화하는 기능에 따라 적응적으로 학습 데이터를 추가하는 새로운 툴 학습 방법 ToolACE-R 제안.
◦
외부 피드백 없이 LLM이 툴 호출을 자체적으로 개선하여 성능을 향상시킬 수 있음을 입증.
◦
적응적 메커니즘을 통해 추론 시간을 효율적으로 관리하여 계산 비용 절감.
◦
다양한 크기의 기본 모델과 호환 가능하며, 고급 API 기반 모델과 경쟁력 있는 성능을 보임.
•
한계점:
◦
본 논문에서 제시된 ToolACE-R의 성능 향상이 특정 벤치마크 데이터셋에 국한될 가능성 존재. 다양한 종류의 툴과 작업에 대한 일반화 성능 평가가 추가적으로 필요.