SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement

작성자

Haebom

카테고리

Empty

저자

Antonis Antoniades, Albert Orwall, Kexun Zhang, Yuxi Xie, Anirudh Goyal, William Wang

개요

본 논문은 복잡하고 역동적인 환경에서 운영되는 소프트웨어 엔지니어링 작업을 위해, Monte Carlo Tree Search (MCTS)와 자기 개선 메커니즘을 통합한 다중 에이전트 프레임워크인 SWE-Search를 제안합니다. SWE-Search는 LLM을 활용한 하이브리드 가치 함수를 통해 수치적 평가와 정성적 평가를 모두 수행하며, 에이전트가 정량적 및 정성적 평가를 바탕으로 전략을 반복적으로 개선할 수 있도록 자기 피드백 루프를 구현합니다. SWE-Agent, Value Agent, Discriminator Agent의 세 가지 에이전트로 구성되며, SWE-bench 벤치마크에서 기존 오픈소스 에이전트 대비 23%의 성능 향상을 보였습니다. 더 깊은 탐색을 통한 추론 시간 증가에 따른 성능 향상을 보여주며, 대규모 모델이나 추가 학습 데이터 없이 소프트웨어 에이전트의 성능을 향상시킬 수 있는 가능성을 제시합니다.

시사점, 한계점

•

시사점:

◦

MCTS와 LLM을 결합한 새로운 소프트웨어 에이전트 프레임워크 SWE-Search를 제시하여 소프트웨어 엔지니어링 작업의 효율성을 향상시켰습니다.

◦

자기 피드백 루프를 통한 자기 개선 메커니즘으로 기존 선형적 접근 방식의 한계를 극복하고, 더 나은 전략 탐색을 가능하게 했습니다.

◦

대규모 모델이나 추가 학습 데이터 없이, 추론 시간 증가를 통해 성능 향상을 달성할 수 있는 가능성을 제시했습니다.

◦

정량적 및 정성적 평가를 통합하여 더욱 포괄적인 전략 평가 및 개선을 가능하게 했습니다.

•

한계점:

◦

SWE-Search의 성능 향상이 특정 벤치마크(SWE-bench)에 국한될 가능성이 있습니다. 다양한 벤치마크 및 실제 환경에서의 성능 검증이 필요합니다.

◦

LLM의 사용으로 인해 추론 시간 및 비용이 증가할 수 있습니다. 효율적인 LLM 활용 전략에 대한 추가 연구가 필요합니다.

◦

다중 에이전트 간의 상호작용 및 의사결정 과정에 대한 더 자세한 분석이 필요합니다.

◦

현재 제시된 모델의 확장성 및 일반화 능력에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage