Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TẠO Bộ dữ liệu của bạn: Tạo Bộ dữ liệu tổng hợp theo nhiệm vụ cụ thể thông qua việc truy xuất và mở rộng ngữ liệu

Created by
  • Haebom

Tác giả

Ingo Ziegler, Abdullatif K oksal, Desmond Elliott, Hinrich Sch utze

Phác thảo

Để Giải quyết những thách thức trong việc xây dựng các tập dữ liệu chất lượng cao cho các tác vụ chuyên biệt, bài báo này đề xuất CRAFT (Truy xuất và Tăng cường Ngữ liệu để Tinh chỉnh), một phương pháp tạo ra các tập dữ liệu tổng hợp dựa trên một số lượng nhỏ các ảnh chụp do người dùng tạo ra. CRAFT sử dụng một tập dữ liệu thu thập dữ liệu web công khai quy mô lớn và truy xuất tài liệu dựa trên độ tương đồng để tìm các tài liệu có liên quan, đồng thời tận dụng mô hình ngôn ngữ khổng lồ (LLM) được điều chỉnh theo chỉ thị để tăng cường các tài liệu đã truy xuất bằng các mẫu tác vụ do người dùng xác định. Các thử nghiệm trên bốn tác vụ đa dạng—sinh học, y học, trả lời câu hỏi thông thường (QA) và tóm tắt—chứng minh rằng CRAFT tạo ra hiệu quả các tập dữ liệu đào tạo lớn, dành riêng cho tác vụ, vượt trội hoặc ngang bằng với LLM tiêu chuẩn về tác vụ QA và đạt được cải thiện ưu tiên 46 điểm so với các mô hình được đào tạo trên dữ liệu do con người quản lý hiện có về tác vụ tóm tắt. Hơn nữa, phương pháp này vượt trội hơn các phương pháp tạo tập dữ liệu tổng hợp khác, chẳng hạn như Tự hướng dẫn và Evol-Hướng dẫn, và duy trì hiệu suất mạnh mẽ ngay cả khi chất lượng của một vài ảnh chụp ban đầu thay đổi.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để tạo ra các tập dữ liệu đào tạo chất lượng cao, quy mô lớn một cách hiệu quả chỉ bằng một lượng nhỏ dữ liệu.
Nó cho thấy khả năng ứng dụng trong nhiều lĩnh vực khác nhau (sinh học, y học, QA, tóm tắt, v.v.).
ĐảM bảo hiệu suất và độ bền vượt trội so với các phương pháp hiện có.
Xây dựng bộ dữ liệu cho các nhiệm vụ cụ thể ngay cả khi không có kiến thức chuyên môn.
Limitations:
ĐIều này có thể phụ thuộc vào hiệu suất của LLM. Những hạn chế về hiệu suất của LLM cũng có thể ảnh hưởng đến hiệu suất của CRAFT.
Kiểm soát chất lượng của những lần bắn đầu tiên rất quan trọng vì chất lượng của những lần bắn đầu tiên có thể ảnh hưởng đến kết quả.
Chất lượng và độ lệch của dữ liệu thu thập trên web có thể ảnh hưởng đến kết quả. Việc giải quyết các vấn đề về độ tin cậy và độ lệch của dữ liệu là cần thiết.
Có thể cần tối ưu hóa cho các tác vụ cụ thể. Hiệu suất tổng quát hóa cần được cải thiện trên nhiều tác vụ khác nhau.
👍