본 논문은 GPT-3.5, PaLM2, Llama2 세 가지 주요 대규모 언어 모델(LLM)에 대한 다각적 비교 서술 분석(CNA)을 수행했습니다. 동일한 프롬프트를 적용하고 특정 작업에 대한 출력을 평가하여 다양한 LLM 간 공정하고 편향되지 않은 비교를 보장했습니다. 연구 결과, 세 가지 LLM 모두 동일한 프롬프트에 대해 서로 다른 응답을 생성하여 주어진 작업을 이해하고 분석하는 능력에 상당한 차이가 있음을 보여주었습니다. 인간 평가를 골드 스탠다드로 사용하여 네 가지 관점에서 LLM 성능의 차이를 분석했습니다.