본 연구는 11개의 독점 및 오픈소스 대규모 언어 모델(LLM)을 10가지 일상적인 직업적 과제(텍스트 요약, 일정 생성, 이메일 및 제안 작성 등)에 적용하여 평가함으로써, 비용 효율성, 현지 배포 또는 개인 정보 보호가 필요한 상황에서 더 작은 모델이 얼마나 "충분히 좋은지"를 실증적으로 규명하고자 하였다. GPT-4o는 우수한 성능을 보였으나 높은 비용과 환경적 영향을 초래했으며, Gemma-3 및 Phi-4와 같은 소규모 모델은 대부분의 과제에서 강력하고 신뢰할 수 있는 결과를 제공하여 실용성을 입증했다. 클러스터 분석 결과, 프리미엄 종합 모델, 유능한 일반 모델, 제한적이지만 안전한 모델의 세 가지 그룹으로 분류되었으며, 품질, 제어 및 지속 가능성 간의 상충 관계를 보여주었다. 과제 유형에 따라 모델 효과가 달라지는데, 개념적 과제는 대부분의 모델에 어려움을 주었고, 집계 및 변환 과제는 더 나은 성능을 보였다. 따라서 성능 극대화 벤치마크에서 조직의 우선 순위를 더 잘 반영하는 과제 및 맥락 인식 충분성 평가로의 전환을 주장한다.