Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Lăn xúc xắc và quan sát trước khi nhảy: Vượt qua giới hạn sáng tạo của dự đoán mã thông báo tiếp theo

Created by
  • Haebom

Tác giả

Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan

Phác thảo

Bài báo này thiết kế các nhiệm vụ thuật toán tối thiểu trừu tượng hóa các nhiệm vụ mở, thực tế để đo lường định lượng các hạn chế sáng tạo của các mô hình ngôn ngữ hiện có. Các nhiệm vụ này đòi hỏi các bước lập kế hoạch ngầm, mở và mang tính xác suất, hoặc khám phá các kết nối mới trong một biểu đồ tri thức trừu tượng (ví dụ: chơi chữ, phép loại suy, nghiên cứu) hoặc xây dựng các mô hình mới (ví dụ: các bài toán hoặc thiết kế protein mới). Chúng tôi lập luận về mặt thực nghiệm và khái niệm chống lại sự thiển cận của việc học mã thông báo tiếp theo và cho rằng các phương pháp tiếp cận đa mã thông báo, chẳng hạn như đào tạo không cần giáo viên và các mô hình khuếch tán, vượt trội hơn trong việc tạo ra các đầu ra đa dạng và độc đáo. Hơn nữa, chúng tôi thấy rằng điều kiện hạt giống, đưa nhiễu vào lớp đầu vào để tạo ra tính ngẫu nhiên mà không ảnh hưởng đến tính nhất quán, có hiệu quả tương đương với lấy mẫu nhiệt độ ở lớp đầu ra, và trong một số điều kiện, thậm chí còn vượt trội hơn. Tóm lại, nghiên cứu này cung cấp một môi trường thử nghiệm tối thiểu, có nguyên tắc để phân tích các khả năng sáng tạo mở và đưa ra các lập luận mới vượt ra ngoài việc học mã thông báo tiếp theo và lấy mẫu nhiệt độ.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một bộ nhiệm vụ thuật toán mới để đánh giá khả năng sáng tạo mở.
Chúng tôi chứng minh những hạn chế của việc học mã thông báo và chứng minh tính ưu việt của phương pháp tiếp cận đa mã thông báo.
Chúng tôi đề xuất rằng việc tạo điều kiện cho lớp đầu vào là một cách hiệu quả để đạt được đồng thời tính ngẫu nhiên và tính nhất quán.
Nó trình bày những góc nhìn và hướng nghiên cứu mới về tính sáng tạo của các mô hình ngôn ngữ.
Limitations:
Nhiệm vụ thuật toán được trình bày có thể không phản ánh hoàn hảo các nhiệm vụ sáng tạo phức tạp của thế giới thực.
Do hạn chế trong tập dữ liệu và mô hình được sử dụng, cần phải xác nhận thêm về khả năng khái quát hóa.
Khả năng tiếp cận có thể bị hạn chế vì chỉ một phần của mã được tiết lộ.
👍