Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Một nghiên cứu so sánh các LLM chuyên biệt như những chú chó săn mồi dày đặc

Created by
  • Haebom

Tác giả

Hengran Zhang, Keping Bi, Jiafeng Guo

Phác thảo

Bài báo này nghiên cứu một cách có hệ thống tác động của chuyên môn hóa miền lên hiệu quả truy xuất khi sử dụng các mô hình ngôn ngữ quy mô lớn (LLM) làm công cụ tìm kiếm dày đặc. Là một bước quan trọng hướng tới việc phát triển một công cụ tìm kiếm thống nhất có khả năng xử lý văn bản, mã, hình ảnh và nội dung đa phương thức, chúng tôi phân tích thực nghiệm cách thức điều chỉnh LLM theo tác vụ cụ thể tác động đến hiệu suất truy xuất. Chúng tôi tiến hành các thí nghiệm mở rộng sử dụng tám LLM Qwen2.5 7B (mô hình cơ sở, điều chỉnh có hướng, chuyên môn hóa mã/toán, suy luận văn bản dài và mô hình ngôn ngữ thị giác) trong cả hai bối cảnh truy xuất zero-shot và học có giám sát. Trong bối cảnh truy xuất zero-shot, chúng tôi xem xét truy xuất văn bản trong chuẩn BEIR và truy xuất mã trong chuẩn CoIR. Để đánh giá hiệu suất học có giám sát, tất cả các LLM đều được tinh chỉnh trên tập dữ liệu MS MARCO. Chuyên môn hóa toán học và suy luận văn bản dài luôn làm giảm hiệu suất trên cả ba bối cảnh, cho thấy sự đánh đổi giữa suy luận toán học và khớp ngữ nghĩa. Mô hình ngôn ngữ thị giác và LLM chuyên biệt về mã chứng minh hiệu suất zero-shot vượt trội so với các LLM khác, vượt trội hơn BM25 trong các tác vụ truy xuất mã và duy trì hiệu suất tương đương với LLM cơ sở trong các thiết lập học có giám sát. Những kết quả này gợi ý những hướng đi đầy hứa hẹn cho các tác vụ truy xuất tích hợp tận dụng sự kết hợp đa miền và đa phương thức.

Takeaways, Limitations

Takeaways:
Các LLM dựa trên mô hình ngôn ngữ thị giác và mã cụ thể cho thấy hiệu suất vượt trội trong việc truy xuất zero-shot. Đặc biệt, chúng vượt trội hơn BM25 về khả năng truy xuất mã.
Trình bày khả năng phát triển hệ thống tìm kiếm tích hợp sử dụng kết hợp đa miền và đa phương thức.
Tiết lộ sự đánh đổi giữa khả năng suy luận toán học và sự phù hợp về mặt ngữ nghĩa.
Limitations:
Số lượng LLM và bộ dữ liệu được sử dụng còn hạn chế. Cần có thêm nhiều nghiên cứu sử dụng nhiều LLM và bộ dữ liệu hơn nữa.
Cần nghiên cứu thêm về các thiết lập khác ngoài thiết lập học có giám sát và không có cú đánh nào.
Cần có thêm nghiên cứu về hiệu suất tổng quát của LLM chuyên về các nhiệm vụ cụ thể.
👍