본 연구는 기계 번역을 사례로 대규모 언어 모델(LLM)의 번역 품질과 효율성 간의 trade-off를 조사합니다. Flores+ 벤치마크 및 프랑스어, 힌디어, 칸나다어로의 대화형 번역에 대한 인간 평가를 통해 전체 모델, 증류 모델, 양자화 모델의 성능을 비교했습니다. 3.3B FP32 모델은 가장 높은 BLEU 점수를 기록했지만 가장 큰 환경 발자국을 발생시켰습니다. 증류된 600M FP32 모델은 추론 시간을 71-78%, 탄소 배출량을 63-65% 감소시키면서 BLEU 점수 감소는 최소화했습니다. 공격적인 양자화(INT4) 또한 높은 수준의 정확성과 유창성을 유지했습니다.