Sign In

SwiLTra-Bench: The Swiss Legal Translation Benchmark

Created by
  • Haebom
Category
Empty

저자

Joel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gosken, Lorenzo Tanzi, Thomas Luthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamie, Daniel Brunner, Julio Pereyra, Niko Grupen

개요

스위스의 4개 공용어와 다국어 법률 문서 요구사항으로 인해 법률 번역이 중요한 스위스에서, 기존의 전문 번역가 의존 방식은 병목 현상을 야기하고 사법 접근성에 영향을 미칩니다. 이에 본 논문은 법률, 머리말, 보도자료 등 18만 개 이상의 스위스 법률 번역쌍을 포함하는 다국어 벤치마크 SwiLTra-Bench를 제시합니다. 이는 영어를 포함한 모든 스위스 언어를 다루며, LLM 기반 번역 시스템 평가를 위해 설계되었습니다. 실험 결과, 최첨단 모델이 모든 문서 유형에서 우수한 번역 성능을 보였으나, 특화된 번역 시스템은 법률에서는 뛰어나지만 머리말에서는 성능이 저조했습니다. 오픈 SLM의 파인튜닝은 번역 품질을 향상시키지만, Claude-3.5-Sonnet과 같은 최고의 제로샷 프롬프트 기반 최첨단 모델에는 미치지 못함을 보였습니다. 또한, 인간 전문가 평가와 가장 잘 일치하는 특화된 LLM 평가 시스템 SwiLTra-Judge를 제시합니다.

시사점, 한계점

시사점:
SwiLTra-Bench는 스위스 법률 번역의 다국어 벤치마크로서 LLM 기반 번역 시스템 평가에 유용한 자료를 제공합니다.
최첨단 LLM이 스위스 법률 번역에서 우수한 성능을 보임을 확인했습니다.
특화된 LLM 평가 시스템 SwiLTra-Judge를 통해 인간 평가와의 일치성을 높일 수 있습니다.
오픈 SLM 파인튜닝의 효과와 한계를 제시합니다.
한계점:
SwiLTra-Bench는 스위스 법률에 특화되어 있어 다른 법률 시스템에는 일반화하기 어려울 수 있습니다.
특화된 번역 시스템의 머리말 번역 성능 저하 원인에 대한 추가 연구가 필요합니다.
파인튜닝된 오픈 SLM이 최첨단 제로샷 모델에 비해 성능이 떨어지는 이유에 대한 추가 분석이 필요합니다.
👍