この論文では、深い推論LLM(OpenAI o1やDeepSeek-R1など)を使用した自由翻訳モデルDeepTransを紹介します。既存の深層推論LLMでは、自由翻訳が十分に研究されていないことを指摘し、強化学習(RL)を通じて自由翻訳を学習するDeepTransを紹介します。翻訳結果と思考プロセスの両方について事前定義された評価基準を使用して補償モデルを構築し、それによってDeepTransが思考と自由翻訳の方法を学ぶことができます。また、ラベル付き翻訳データを必要としないため、人材やリソース集約的なデータ生成を避けることができるという利点もある。実験の結果、Qwen2.5-7BをベースにしたDeepTransは、文学翻訳における性能を16.3%向上させ、既存の強力な深層推論LLMを凌駕する性能を示した。 RLナビゲーションの過程での失敗事例と興味深い発見もまとめて提示します。