Bài báo này trình bày DeepTrans, một mô hình dịch thuật tự do sử dụng các LLM suy luận sâu (ví dụ: OpenAI o1 và DeepSeek-R1). Chỉ ra rằng dịch thuật tự do chưa được nghiên cứu đầy đủ trong các LLM suy luận sâu hiện có, chúng tôi giới thiệu DeepTrans, một mô hình học dịch thuật tự do thông qua học tăng cường (RL). Sử dụng các tiêu chí đánh giá được xác định trước cho cả kết quả dịch thuật và quá trình tư duy, chúng tôi xây dựng một mô hình phần thưởng cho phép DeepTrans học cách suy luận và dịch thuật một cách tự do. Hơn nữa, nó loại bỏ nhu cầu về dữ liệu dịch thuật được gắn nhãn, tránh được nhiệm vụ tạo dữ liệu tốn nhiều công sức và tài nguyên. Kết quả thực nghiệm cho thấy DeepTrans, dựa trên Qwen2.5-7B, cải thiện hiệu suất dịch thuật văn học lên 16,3%, vượt trội hơn các LLM suy luận sâu mạnh mẽ hiện có. Chúng tôi cũng tóm tắt những thất bại và phát hiện thú vị từ quá trình khám phá RL.