Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SLED: Giải mã sự tiến hóa của Logits tự thân để cải thiện tính xác thực trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Jianyi Zhang, Da-Cheng Juan, Cyrus Rashtchian, Chun-Sung Ferng, Heinrich Jiang, Yiran Chen

Phác thảo

Bài báo này đề xuất Giải mã Tiến hóa Tự Logits (SLED), một khuôn khổ giải mã mới nhằm cải thiện độ tin cậy và độ chính xác thực tế của đầu ra của các mô hình ngôn ngữ quy mô lớn (LLM). SLED tận dụng kiến ​​thức tiềm ẩn trong LLM để cải thiện độ chính xác thực tế của đầu ra mà không cần cơ sở kiến ​​thức bên ngoài hoặc tinh chỉnh bổ sung. Nó so sánh các logit đầu ra của các lớp cuối cùng và lớp ban đầu và sử dụng phương pháp tiếp cận gradient gần đúng để cho phép kiến ​​thức tiềm ẩn tự cải thiện đầu ra. Các thử nghiệm mở rộng trên nhiều họ mô hình và quy mô khác nhau (từ 1B đến 45B), bao gồm Gemma, Qwen, Mixtral và gpt-oss, cũng như các cấu hình kiến ​​trúc tiên tiến như MoE, chứng minh rằng SLED luôn cải thiện độ chính xác thực tế so với các phương pháp giải mã hiện có trong khi vẫn duy trì tính trôi chảy của ngôn ngữ tự nhiên và giảm thiểu chi phí độ trễ không đáng kể. Hơn nữa, nó có thể được kết hợp linh hoạt với các phương pháp giải mã khác để nâng cao hiệu suất hơn nữa.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp giải mã mới giúp cải thiện độ chính xác thực tế của LLM mà không cần cơ sở kiến ​​thức bên ngoài hoặc điều chỉnh bổ sung.
Nó có thể áp dụng cho nhiều kiến ​​trúc và kích thước mô hình khác nhau và cho thấy hiệu suất tốt hơn so với các phương pháp hiện có.
Hiệu suất có thể được cải thiện bằng cách kết hợp nó với các phương pháp giải mã khác.
Duy trì sự lưu loát của ngôn ngữ tự nhiên và giảm thiểu độ trễ.
Limitations:
Cần phải xác minh thêm về khả năng khái quát hóa của các kết quả thực nghiệm được trình bày trong bài báo này.
Cần nghiên cứu thêm để xác định xem hiệu quả nâng cao hiệu suất của SLED có nhất quán trên tất cả các loại LLM và tất cả các nhiệm vụ hay không.
Cần phân tích thêm để giải quyết tình trạng suy giảm hiệu suất tiềm ẩn do những hạn chế của phương pháp tiếp cận độ dốc gần đúng.
👍