본 논문은 AI와의 작업에 대한 기술적 세부 사항을 엄격한 테스트를 통해 이해하도록 돕는 일련의 단편 보고서 중 첫 번째 보고서입니다. 대규모 언어 모델(LLM)의 벤치마크 통과 여부를 측정하는 단일 표준이 없다는 점과, 표준 선택이 LLM의 성능 평가에 큰 영향을 미친다는 점을 보여줍니다. 특정 사례에서 LLM을 사용하려는 목표에 따라 표준을 선택해야 합니다. 또한, 특정 프롬프팅 방식이 특정 질문에 대한 LLM의 응답 능력을 향상시키는지 또는 저해하는지 사전에 알기 어렵다는 점을 발견했습니다. 예를 들어, LLM에 정중하게 요청하는 것이 성능을 향상시키는 경우도 있고, 성능을 저하시키는 경우도 있습니다. AI의 답변을 제한하는 것도 어떤 경우에는 성능을 향상시키지만, 다른 경우에는 성능을 저하시킬 수 있습니다. 결론적으로, AI 성능 벤치마킹은 모든 상황에 적용할 수 있는 단일 해결책이 아니며, AI에 정중하게 요청하는 것과 같은 특정 프롬프팅 방식이나 접근 방식이 보편적으로 유용한 것은 아님을 시사합니다.