Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Small Open Models Achieve Near Parity with Large Models in Low Resource Literary Translation at a Fraction of the Cost

Created by
  • Haebom

作者

Mihai Nadas, Laura Diosan, Andreea Tomescu, Andrei Piscoran

概要

本論文は、低資源言語であるルーマニア語の文学翻訳のための統合フレームワークであるTINYFABULIST TRANSLATION FRAMEWORK(TF2)を提示する。 TF2は、圧縮された微調整言語モデル(TF2-12B)と大規模合成並列データセット(DS-TF2-EN-RO-3MおよびDS-TF2-EN-RO-15K)を生成および公開することを中心に、データセットの作成、微調整および評価のための統合フレームワークです。従来の大規模合成英語寓話データセット(DS-TF1-EN-3M)に基づいて高品質ルーマニア語参照データ15,000個を生成し、120億パラメータのオープンウェイトモデルに対してディレクティブ微調整とアダプタ圧縮を行い、モデルを微調整します。評価は、パックレベルBLEUと5次元LLMベースの評価尺度(正確性、流暢性、一貫性、スタイル、文化的適応)を組み合わせて行われます。実験の結果、微調整されたモデルは、最高性能の大規模な独占モデルと競争力のある流暢性と適切性を達成しながら、オープンソース、アクセシビリティ、およびコスト効率を提供します。モデルとデータセット、スクリプト、評価プロンプトの両方が公開されます。

Takeaways、Limitations

Takeaways:
低資源言語の文学翻訳のための効率的で再現可能なパイプラインの提供
オープンモデルを活用した低資源言語の文化的に重要な文学コンテンツ翻訳の幅広い採用可能性を提示
高品質で大規模な合成データセットの開示による研究の活性化
大規模独占モデルに匹敵する性能を示す軽量モデルの開発
ディレクティブ微調整とアダプタ圧縮技術の有効性検証
Limitations:
合成データに依存するため、実際の文学翻訳の複雑さを完全に反映できない可能性があります。
評価尺度はLLMベースであるため、LLMの制限は評価結果に影響を与える可能性があります。
現在、英語 - ルーマニア語翻訳に限定されており、他の言語の組み合わせへの一般化の可能性にはさらなる研究が必要です。
120億パラメータモデルは依然としてかなりのリソースを必要とするため、より軽量化されたモデル開発が必要になる可能性があります。
👍