본 논문은 대규모 언어 모델(LLM)과 진화 연산(EC)의 통합이 과학적 발견의 새로운 지평을 열었지만, 객관적인 적합도 함수에 의존하는 근본적인 제약에 갇혀 있다는 문제에 주목한다. LLM 심판관에 의해서만 통제되는 순전히 주관적인 환경에서도 진화가 성공할 수 있는지 질문하며, MADE (Multi-Agent Decomposed Evolution) 프레임워크를 제시한다. MADE는 모호한 지침을 구체적이고 검증 가능한 하위 요구 사항으로 분해하여 주관적 평가의 잡음을 제어하고, 고변동 LLM 피드백을 안정적이고 정확한 선택 압력으로 변환한다. DevAI 및 InfoBench와 같은 복잡한 벤치마크에서 MADE는 소프트웨어 요구 사항 충족에서 강력한 기준선보다 50% 이상 (39.9%에서 61.9%) 성능이 우수하며, 복잡한 지침 따르기에서 95%의 완벽한 통과율을 달성했다. 이는 "계산 가능한 메트릭"에서 "설명 가능한 품질" 최적화로의 패러다임 전환을 검증하며, 진실이 존재하지 않는 광범위하고 열린 영역에 대한 진화적 최적화를 가능하게 한다.