본 논문은 대규모 언어 모델(LLM)의 효과적인 평가 방법을 제시합니다. 기존의 수동 평가 방식은 비용과 자원이 많이 들고, 자동 평가 방식은 평가 기준의 한계(참조 기반 답변에 치우침)를 가지는 문제점을 가지고 있습니다. 이를 해결하기 위해 NTCIR-18의 AEOLLM(대규모 언어 모델의 자동 평가) 과제를 기반으로, 참조 없는 평가 방법을 개선하는 세 가지 방법을 제안합니다. 구체적으로, 다중 모델 협업을 통해 다양한 하위 작업에 대한 사람의 평점을 근사하고, 프롬프트 자동 최적화를 통해 초기 과제 프롬프트를 반복적으로 개선하며, 문맥 내 학습(ICL) 최적화를 통해 효과적인 문맥 내 학습 예시를 식별하는 방법을 제시합니다. 실험 결과, 제안된 방법이 AEOLLM 과제에서 우수한 성능을 달성함을 보여줍니다.