본 논문은 대규모 언어 모델(LLM)이 기계 번역(MT) 평가에 뛰어나지만, 엣지 기기 및 개인 정보 보호가 중요한 환경에서의 배포에는 규모와 비용이 걸림돌이 된다는 문제에 주목한다. 영어-독일어 치명적 오류 감지(CED)를 중심으로, 20억 매개변수 미만의 모델(LFM2-350M, Qwen-3-0.6B/1.7B, Llama-3-2-1B-Instruct, Gemma-3-1B)을 WMT21, WMT22, SynCED-EnDe-2025 데이터셋에서 벤치마킹한다. 표준화된 프롬프트, 경량 로짓 편향 보정, 다수결 투표를 적용하여 의미 품질(MCC, F1-ERR/F1-NOT)과 컴퓨팅 메트릭(VRAM, 지연 시간, 처리량)을 보고한다. Gemma-3-1B가 최적의 품질-효율성 균형을 제공하며, 10억 매개변수 부근에서 최적의 성능을 보임을 확인했다.