Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Một nghiên cứu toàn diện về phân loại đối số dựa trên LLM: từ LLAMA qua GPT-4o đến Deepseek-R1

Created by
  • Haebom

Tác giả

Marcin Pietro n, Rafa{\l} Olszowski, Jakub Gomu{\l}ka, Filip Gampel, Andrzej Tomski

Phác thảo

Bài báo này đánh giá hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) trong lĩnh vực khai thác đối số (AM) bằng cách sử dụng nhiều tập dữ liệu khác nhau (Args.me, UKP, v.v.). Bằng cách so sánh và phân tích một số LLM như GPT, Llama và DeepSeek và các biến thể tăng cường suy luận sử dụng thuật toán Chain-of-Thoughts, chúng tôi thấy rằng ChatGPT-4o cho thấy hiệu suất tốt nhất trong các điểm chuẩn phân loại đối số chung và Deepseek-R1 cho thấy hiệu suất tốt nhất trong số các mô hình có thêm hàm suy luận. Tuy nhiên, ngay cả những mô hình có hiệu suất tốt nhất cũng mắc lỗi và chúng tôi đã phân tích các loại lỗi đó và đề xuất các hướng cải tiến trong tương lai. Ngoài ra, chúng tôi đã chỉ ra __T43233__ của thuật toán nhắc hiện có và trình bày một phân tích chuyên sâu về những thiếu sót của tập dữ liệu đối số được sử dụng. Nghiên cứu này được đánh giá là phân tích mở rộng đầu tiên về các tập dữ liệu Args.me và UKP sử dụng thuật toán LLM và nhắc.

Takeaways, Limitations

Takeaways:
Chúng tôi đã xác nhận tính ưu việt của ChatGPT-4o và Deepseek-R1 thông qua phân tích so sánh hiệu suất khai thác đối số bằng nhiều thuật toán LLM và prompt khác nhau.
Tình trạng hiện tại và những hạn chế của khai thác lập luận dựa trên LLM đã được trình bày rõ ràng, gợi ý các hướng nghiên cứu trong tương lai.
Phân tích các tập dữ liệu Args.me và UKP gợi ý các hướng cải thiện chính các tập dữ liệu đó.
Chúng tôi đã tiết lộ Limitations của thuật toán nhắc nhở hiện tại và đề xuất hướng cải tiến.
Limitations:
Các loại LLM và tập dữ liệu được sử dụng trong phân tích có thể bị hạn chế.
Việc phân tích các loại lỗi của LLM cần phải sâu hơn.
Thiếu sự kiểm chứng thực nghiệm đối với các hướng cải tiến được đề xuất.
👍