본 논문은 대규모 언어 모델(LLM)의 성능이 작업에 따라 크게 달라질 수 있다는 점에 착안하여, 유전 알고리즘을 활용하여 LLM의 출력을 반복적으로 개선하는 새로운 접근 방식인 MultiGA를 소개한다. MultiGA는 다양한 LLM에서 초기 개체를 샘플링하여 유전 알고리즘을 적용하고, 중립적인 적합성 함수를 사용하여 출력을 평가한다. 이 과정을 통해 최적의 해결책을 찾고, text-to-SQL 코드 생성, 여행 계획, GPQA, BBQ 벤치마크를 통해 MultiGA의 성능을 평가한다. 결과적으로, MultiGA는 작업에 가장 적합한 LLM의 정확도에 수렴하며, 여러 LLM을 통합하는 새로운 연구의 기반을 마련한다.