Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phân tích tình cảm có thể giải thích được với DeepSeek-R1: Hiệu suất, Hiệu quả và Học tập ít lần

Created by
  • Haebom

Tác giả

ĐôNg Hạo Hoàng, Triệu Hạ Vương

Phác thảo

Bài báo này trình bày nghiên cứu toàn diện đầu tiên so sánh mô hình suy luận nguồn mở DeepSeek-R1 với GPT-4o và GPT-4o-mini của OpenAI. Chúng tôi đã đánh giá hiệu suất của mô hình 671B và các đối tác thu nhỏ của nó chỉ với một vài lần chạy huấn luyện và thấy rằng DeepSeek-R1 đạt điểm F1 là 91,39% trên năm tác vụ phân loại cảm xúc và độ chính xác là 99,31% trên hai tác vụ phân loại cảm xúc. Điều này thể hiện sự cải thiện gấp tám lần so với GPT-4o, chứng tỏ hiệu quả cao chỉ với một vài lần chạy huấn luyện. Hơn nữa, chúng tôi đã phân tích hiệu ứng chưng cất theo kiến trúc, chứng minh rằng mô hình dựa trên 32B Qwen2.5 vượt trội hơn mô hình dựa trên 70B Llama 6,69 điểm phần trăm. DeepSeek-R1 cải thiện khả năng giải thích bằng cách theo dõi minh bạch quá trình suy luận từng bước, nhưng bị giảm thông lượng (Limitations).

Takeaways, Limitations

Takeaways:
DeepSeek-R1 giới thiệu một mô hình thay thế nguồn mở có thể đạt được độ chính xác cao chỉ sau một vài vòng đào tạo, hiệu quả hơn nhiều so với GPT-4o.
Chúng tôi cung cấp Takeaways để phát triển mô hình bằng cách phân tích hiệu ứng chưng cất theo các đặc điểm kiến trúc của DeepSeek-R1.
Do khả năng giải thích cao thông qua theo dõi từng bước, nó có thể đóng góp vào việc phát triển các mô hình AI có thể diễn giải được.
Limitations:
Quy trình theo dõi từng bước để đảm bảo tính minh bạch của quá trình suy luận làm giảm thông lượng.
👍