Thinker는 현실적인 고객 서비스 시나리오에서 복잡한 비즈니스 로직과 장기간의 인간 상호작용을 포함하는 어려운 추론 작업에서 최첨단 성능을 달성하는 에이전트 프레임워크입니다. Thinker는 $\tau$-bench retail 데이터셋에서 GPT-4o(2024-06-01 버전)를 사용하여 82.6%의 성공률(기준: 68.3%), Llama-3.1 405B를 사용하여 81.9%의 성공률(기준: 49.6%)을 달성했으며, 이는 어떠한 파인튜닝 없이 달성된 결과입니다. Thinker는 적절한 구조를 도입함으로써 기본 모델 간의 추론 능력 격차를 효과적으로 해소합니다. 주요 기능은 상태 머신 증강 생성(SMAG), 주 추론 루프에서 LLM 기반 도구로의 작업 위임, 적응형 컨텍스트 관리입니다. ReAct 스타일 추론 루프를 유지하면서 프롬프팅 전용 솔루션으로 상당한 성능 향상을 달성했습니다. 핵심은 SMAG 및 LLM 기반 도구에서 보여주는 것처럼 도구 인터페이스 디자인을 혁신하는 것입니다.