본 논문은 대규모 언어 모델(LLM)의 효과적인 평가 방법을 제시합니다. 기존의 수동 평가 방식은 비용과 자원이 많이 들고, 자동 평가 방식은 기준의 한계(참조 기반 답변에 의존)를 갖는다는 문제점을 지적합니다. 이를 해결하기 위해 NTCIR-18의 AEOLLM(LLM 자동 평가) 과제를 바탕으로, 참조 없이 LLM을 평가하는 세 가지 방법을 제안합니다. 첫째, 다양한 하위 작업에서의 인간 평점을 근사하기 위해 여러 LLM을 활용하는 다중 모델 협업, 둘째, 평가 피드백을 기반으로 초기 과제 프롬프트를 반복적으로 개선하는 프롬프트 자동 최적화, 셋째, 다중 작업 평가 피드백을 기반으로 특수한 문맥 내 학습 예시 검색 모델과 의미적 관련성 검색 모델을 결합하여 가장 효과적인 문맥 내 학습 예시를 식별하는 문맥 내 학습(ICL) 최적화입니다. 실험 결과, 제안된 방법이 AEOLLM 과제에서 우수한 성능을 달성함을 보여줍니다.