Sign In

How to Train Your LLM Web Agent: A Statistical Diagnosis

Created by
  • Haebom
Category
Empty

저자

Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Munoz-Marmol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piche, Alexandre Lacoste, Massimo Caccia

개요

LLM 기반 웹 에이전트의 발전에 대한 연구로, 오픈 소스 모델의 성능 향상을 목표로 한다. 특히, 다단계 웹 상호 작용의 복잡성을 간과하고, LLM 기반 웹 에이전트의 후속 학습에 필요한 높은 컴퓨팅 비용 문제를 해결하고자 한다. 이를 위해 Llama 3.1 8B 모델을 사용하여 Llama 3.3 70B 모델을 모방하도록 두 단계 파이프라인(감독 하에 미세 조정(SFT) 및 온-정책 강화 학습)을 사용한 컴퓨팅 할당에 대한 통계적으로 근거한 연구를 제시한다. 1,370개의 구성을 샘플링하고 부트스트래핑을 사용하여 효과적인 하이퍼파라미터를 추정하였다. SFT와 온-정책 RL을 결합한 것이 WorkArena 및 MiniWob++에서 단독으로 사용한 방식보다 일관되게 우수한 성능을 보였으며, MiniWob++에서 순수 SFT의 최고 성능에 도달하는 데 필요한 컴퓨팅의 55%만 사용했다.

시사점, 한계점

SFT와 온-정책 RL을 결합한 방식이 단독으로 사용하는 방식보다 우수한 성능을 보임.
이 전략은 순수 SFT 방식보다 적은 컴퓨팅 자원을 사용하면서도 동등하거나 더 나은 성능을 달성함.
오픈 소스 모델이 폐쇄형 모델과의 격차를 좁히는 데 기여.
하이퍼파라미터 선택에 매우 민감하여, 광범위한 실험이 어려움.
제안된 방식이 모든 웹 에이전트 작업에 일반화될 수 있는지에 대한 추가 연구 필요.
👍