본 논문은 대규모 언어 모델(LLM)의 빠른 발전과 다양한 응용 분야에서의 광범위한 채택으로 인해 성능 평가를 위한 강력한 평가 프레임워크가 중요해짐을 강조한다. 기존 평가 지표는 짧은 텍스트에는 적용 가능하지만, 장문 답변의 품질 평가에는 효과가 감소한다. 특히 재무 분석이나 규제 준수와 같이 긴 질문, 광범위한 맥락 및 장문 답변이 포함되는 실제 시나리오에서는 이러한 한계가 더욱 중요하다. 본 논문에서는 실제 재무적 사용 사례를 통해 "긴 질문-맥락-답변 삼중항"을 처리하는 응용 프로그램을 보여주고, 긴 삼중항으로 구성된 실제 세계 금융 데이터 세트를 구성하여 기존 지표의 부적절성을 보여준다. 이를 해결하기 위해 장문 LLM 출력의 복잡성에 맞춰 설계된 효과적인 추출, 일치 및 점수 매기기(EMS) 평가 방식을 제안하여 실무자에게 복잡한 실제 시나리오에서 LLM 성능을 평가하기 위한 신뢰할 수 있는 방법론을 제공한다.