대규모 언어 모델(LLM)은 복잡한 문제 해결에 능숙한 지능형 에이전트로서 인상적인 능력을 보여주었습니다. 그러나 API 또는 도구 호출 간의 종속성이 있는 시나리오, 특히 여러 회차 대화에서의 효과적인 계획은 여전히 상당한 과제입니다. 이를 해결하기 위해, 다양한 도메인에서 도구 간의 상호 종속성을 포착하고 관리하도록 특별히 설계된 도구 증강형, 다중 도메인, 다중 회차 대화 데이터셋인 T1을 소개합니다. T1은 단기 및 장기 메모리를 위한 통합 캐싱 메커니즘의 도움으로 9개의 고유한 도메인(4개의 단일 도메인 및 5개의 다중 도메인)에서 도구 사용을 조정하는 에이전트의 능력을 엄격하게 평가할 수 있도록 합니다. 또한 캐시된 결과를 재계산할지 재사용할지 결정하는 것과 같은 동적 재계획을 지원합니다. 도구 사용 및 계획에 대한 연구를 촉진하는 것 외에도 T1은 오픈소스 언어 모델의 성능을 평가하기 위한 벤치마크 역할도 합니다. T1-Agent를 기반으로 한 결과를 제시하여 복잡하고 도구 종속적인 시나리오에서 계획하고 추론하는 능력을 강조합니다.
시사점, 한계점
•
시사점: 다중 도메인 및 다중 회차 대화에서 도구 사용 및 계획 능력을 평가하기 위한 새로운 벤치마크 데이터셋 T1을 제공합니다. 단기 및 장기 메모리를 위한 캐싱 메커니즘을 통합하여 동적 재계획을 지원합니다. 오픈소스 LLM의 성능 평가에 활용 가능합니다. 복잡한 도구 종속적 시나리오에서의 계획 및 추론 능력을 보여주는 T1-Agent의 결과를 제시합니다.
•
한계점: 현재 데이터셋의 규모와 다양성에 대한 구체적인 언급이 부족합니다. T1-Agent의 성능이 다른 최첨단 모델과 비교 분석되지 않았습니다. 데이터셋의 편향성 및 일반화 성능에 대한 분석이 부족합니다. 도구 간의 상호작용의 복잡성에 대한 자세한 설명이 필요합니다.