TIER: Trajectory-Invariant Execution Rewards for Multi-Step Tool Composition

작성자

Haebom

카테고리

Empty

저자

Anay Kulkarni, ChiaEn Lu, Dheeraj Mekala, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang

💡 개요

본 논문은 대규모 언어 모델이 복잡한 작업을 API 호출 시퀀스를 통해 해결하도록 돕는 도구 사용에서 발생하는 다단계 도구 조합 문제에 대한 기존 강화학습 접근 방식의 한계를 극복하고자 합니다. 연구팀은 참조 궤적에 의존하는 대신 함수 스키마와 런타임 실행에서 직접 감독 정보를 얻는 TIER(Trajectory-Invariant Execution Rewards) 프레임워크를 제안합니다. TIER는 형식 유효성, 스키마 준수, 실행 성공, 답변 정확도로 보상을 분해하여, 다양한 해결 전략을 지원하고 유효한 모든 실행 경로에 크레딧을 부여합니다.

🔑 시사점 및 한계

•

TIER는 참조 궤적에 대한 의존성을 제거하여 다단계 도구 조합 문제에서 강화학습의 확장성을 크게 향상시킵니다.

•

보상 함수를 세분화하여 각 단계별 피드백을 제공함으로써 도구 사용의 해석 가능성과 효율성을 높입니다.

•

DepthBench와 같은 벤치마크에서 기존 방법론 대비 월등한 성능을 보이며, 특히 복잡한 다단계 작업에서 강점을 나타냅니다.

•

TIER의 각 보상 구성 요소가 모두 성능 향상에 필수적임이 입증되어, 다단계 추론에 대한 다층적 감독의 중요성을 시사합니다.

•

현재 연구는 제안된 TIER 프레임워크의 효과성을 입증하는 데 초점을 맞추고 있으며, 실제 복잡하고 동적으로 변화하는 환경에서의 적용 가능성과 일반화 성능에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage