Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning

Created by
  • Haebom

저자

Xingshan Zeng, Weiwen Liu, Xu Huang, Zezhong Wang, Lingzhi Wang, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruiming Tang, Qun Liu

개요

본 논문은 대규모 언어 모델(LLM)의 능력을 확장하기 위한 유망한 방법으로 떠오른 툴 학습에 대해 다룹니다. 기존의 툴 학습 접근 방식은 주로 툴을 효과적으로 호출하도록 LLM을 미세 조정하기 위한 데이터 합성에 초점을 맞추었지만, 모델의 잠재력을 완전히 자극하는 방법은 크게 무시했습니다. 이 논문에서는 모델 인식 반복적 학습과 적응적 개선을 모두 포함하는 새로운 프레임워크인 ToolACE-R을 제안합니다. ToolACE-R은 모델의 진화하는 능력에 따라 훈련 샘플을 점진적으로 조정하여 잠재력을 극대화하는 모델 인식 반복적 학습 절차를 특징으로 합니다. 또한, LLM이 외부 피드백 없이 성능을 최적화하는 반복적인 툴 호출 능력을 강조하는 자체 개선 훈련 말뭉치를 통합합니다. 더 나아가, 훈련된 모델이 반복적인 자체 개선 과정을 언제 중지할지 자율적으로 결정할 수 있는 효율적인 테스트 시간 확장을 위한 적응적 자체 개선 메커니즘을 도입합니다. 여러 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 ToolACE-R이 고급 API 기반 모델과 비교하여 경쟁력 있는 성능을 달성함을 보여줍니다. 적응적 자체 개선을 통해 툴 호출 성능을 효율적으로 더욱 향상시킬 수 있습니다. 이러한 결과는 ToolACE-R의 효과와 일반화 가능성을 강조하며, 보다 효율적이고 확장 가능한 툴 학습을 위한 유망한 방향을 제시합니다.

시사점, 한계점

시사점:
모델의 진화하는 능력에 따라 훈련 샘플을 조정하는 모델 인식 반복적 학습 절차를 통해 LLM의 잠재력을 극대화할 수 있음을 보여줌.
외부 피드백 없이 LLM의 툴 호출 성능을 최적화하는 자체 개선 훈련 말뭉치의 효과를 입증.
적응적 자체 개선 메커니즘을 통해 테스트 시간 확장을 효율적으로 수행 가능함을 제시.
ToolACE-R이 고급 API 기반 모델과 비교하여 경쟁력 있는 성능을 달성함을 실험적으로 증명.
한계점:
본 논문에서는 ToolACE-R의 구체적인 알고리즘 및 구현 세부 사항에 대한 자세한 설명이 부족함.
다양한 종류의 툴과 작업에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
적응적 자체 개선 메커니즘의 최적 매개변수 설정에 대한 추가적인 연구가 필요함.
실험 결과의 재현성을 확보하기 위한 코드 및 데이터 공개가 필요함.
👍