대규모 언어 모델 기반 에이전트가 소프트웨어 엔지니어링에 유망하지만, 환경 구성은 수동 노력과 양질의 대규모 데이터 세트 부족으로 인해 병목 현상으로 남아 있습니다. 기존 벤치마크는 최종 빌드/테스트 성공 여부만 평가하여 에이전트의 성공과 실패 원인을 모호하게 합니다. 본 연구는 환경 설정, 계획, 인식 기반 오류 진단, 피드백 기반 수정, 최종 환경 구성을 위한 액션 실행 등 에이전트의 세분화된 역량을 과정별로 평가하는 환경 구성 진단 벤치마크(Enconda-bench)를 제시합니다. Enconda-bench는 현실적인 README 오류를 주입하여 자동 생성된 작업 인스턴스를 사용하고, 확장 가능하고 품질 높은 평가를 위해 Docker에서 검증합니다. Enconda-bench는 과정별 분석과 최종 실행 가능성을 결합하여 집계된 성공률을 넘어선 역량 평가를 가능하게 합니다. 최첨단 LLM 및 에이전트 프레임워크에 대한 평가 결과 에이전트가 오류를 찾아낼 수 있지만, 피드백을 효과적인 수정으로 변환하는 데 어려움을 겪어 최종 성능이 제한됨을 보여줍니다. Enconda-bench는 환경 구성에 대한 과정별 내부 역량 평가를 제공하는 최초의 프레임워크로, 소프트웨어 엔지니어링 에이전트 개선을 위한 실행 가능한 통찰력을 제공합니다.