BenchAgents는 고품질 벤치마크의 부족으로 인해 제한적인 평가 통찰력을 해결하기 위해, 대규모 언어 모델(LLM)을 활용하여 평가 벤치마크 생성을 자동화하는 다중 에이전트 프레임워크입니다. 이 프레임워크는 계획, 생성, 검증 및 평가의 단계로 벤치마크 생성 과정을 분해하며, LLM 에이전트가 각 단계를 조율합니다. BenchAgents는 언어 및 비전 양쪽의 계획, 제약 조건 만족 및 인과 추론과 관련된 능력을 평가하기 위한 벤치마크를 생성하는 데 사용되었습니다.