Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Small Can You Go? Compact Language Models for On-Device Critical Error Detection in Machine Translation

Created by
  • Haebom
Category
Empty

저자

Muskaan Chopra, Lorenz Sparrenberg, Sarthak Khanna, Rafet Sifa

개요

본 논문은 대규모 언어 모델(LLM)이 기계 번역(MT) 평가에 뛰어나지만, 엣지 기기 및 개인 정보 보호가 중요한 환경에서의 배포에는 규모와 비용이 걸림돌이 된다는 문제에 주목한다. 영어-독일어 치명적 오류 감지(CED)를 중심으로, 20억 매개변수 미만의 모델(LFM2-350M, Qwen-3-0.6B/1.7B, Llama-3-2-1B-Instruct, Gemma-3-1B)을 WMT21, WMT22, SynCED-EnDe-2025 데이터셋에서 벤치마킹한다. 표준화된 프롬프트, 경량 로짓 편향 보정, 다수결 투표를 적용하여 의미 품질(MCC, F1-ERR/F1-NOT)과 컴퓨팅 메트릭(VRAM, 지연 시간, 처리량)을 보고한다. Gemma-3-1B가 최적의 품질-효율성 균형을 제공하며, 10억 매개변수 부근에서 최적의 성능을 보임을 확인했다.

시사점, 한계점

10억 매개변수 모델(Gemma-3-1B)이 SynCED-EnDe-2025에서 MCC=0.77, F1-ERR=0.98을 달성하며, MacBook Pro M4 Pro (24 GB)에서 400ms의 단일 샘플 지연 시간을 유지하여 최적의 품질-효율성 균형을 제공한다.
Qwen-3-1.7B는 가장 높은 절대 MCC를 기록하지만 더 높은 컴퓨팅 비용이 든다.
초소형 모델(0.6B)은 소수의 샷 보정을 통해 사용할 수 있지만, 개체 및 숫자 오류를 감지하는 데 한계가 있다.
경량 보정 및 소규모 샘플 감독을 통해 소형, instruction-tuned LLM이 신뢰할 수 있는 온디바이스 CED를 제공하여, 개인 정보 보호 및 저비용 오류 스크리닝을 가능하게 한다.
모든 데이터셋, 프롬프트 및 스크립트는 공개적으로 GitHub 저장소에서 이용 가능하다.
👍