본 논문은 대규모 언어 모델(LLM) 분야를 포함한 연구 문헌의 급증으로 인해 포괄적이고 최신의 조사 논문을 생성하는 어려움을 해결하기 위해 개발된 multi-stage 파이프라인인 autosurvey2를 소개한다. 이 시스템은 병렬 섹션 생성, 반복적인 개선, 최신 간행물의 실시간 검색을 통합하여 주제의 완전성과 사실적 정확성을 보장한다. 품질은 전문가 검토 표준에 따라 적용 범위, 구조 및 관련성을 측정하는 multi-LLM 평가 프레임워크를 사용하여 평가된다. 실험 결과는 autosurvey2가 구조적 일관성과 주제 관련성에서 더 높은 점수를 달성하면서 기존 검색 기반 및 자동화된 기본 모델보다 일관되게 우수한 성능을 보이며 강력한 인용 충실도를 유지함을 보여준다. autosurvey2는 검색, 추론 및 자동 평가를 통합하여 장기 학술 조사를 생성하기 위한 확장 가능하고 재현 가능한 솔루션을 제공하며 자동 학술 글쓰기에 대한 향후 연구를 위한 견고한 기반을 제공한다.