Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Vượt ra ngoài ghi nhớ: Đánh giá khái quát ngữ nghĩa trong các mô hình ngôn ngữ lớn bằng cách sử dụng cấu trúc cụm từ

Created by
  • Haebom

Tác giả

Wesley Scivetti, Melissa Torgbi, Austin Blodgett, Mollie Shichman, Taylor Hudson, Claire Bonial, Harish Tayyar Madabushi

Phác thảo

Bài báo này trình bày một đánh giá chẩn đoán sử dụng Ngữ pháp Xây dựng (CxG) để giải quyết những thách thức đánh giá do việc sử dụng các tập dữ liệu tiền huấn luyện lớn gây ra: phân biệt giữa các khả năng ngôn ngữ được thể hiện rõ ràng trong tập dữ liệu tiền huấn luyện và khái quát hóa thành các trường hợp động, thực tế ít phổ biến hơn trong tập dữ liệu tiền huấn luyện. CxG cung cấp một khuôn khổ dựa trên tâm lý ngôn ngữ để kiểm tra khái quát hóa bằng cách liên kết rõ ràng các dạng cú pháp với các ý nghĩa trừu tượng, phi từ vựng. Chúng tôi xây dựng một tập dữ liệu đánh giá suy luận mới sử dụng các cấu trúc cụm từ tiếng Anh, tận dụng khả năng trừu tượng hóa của người nói từ các ví dụ phổ biến để hiểu và tạo ra các ví dụ sáng tạo. Tập dữ liệu này giải quyết hai câu hỏi trọng tâm: liệu các mô hình có thể "hiểu" ý nghĩa của các câu ít được thể hiện trong tập dữ liệu tiền huấn luyện nhưng lại trực quan và dễ hiểu đối với con người hay không; và liệu chúng có thể sử dụng ý nghĩa cấu trúc một cách phù hợp khi được cung cấp các cấu trúc giống hệt nhau về mặt cú pháp nhưng khác nhau về mặt ngữ nghĩa hay không. Các mô hình tiên tiến, bao gồm GPT-o1, có hiệu suất kém hơn 40% ở nhiệm vụ thứ hai, cho thấy sự thất bại trong việc khái quát hóa các dạng cú pháp giống hệt nhau thành các ý nghĩa cấu trúc riêng biệt, như con người vẫn làm. Chúng tôi đang công khai bộ dữ liệu mới và dữ liệu thử nghiệm liên quan (bao gồm cả lời nhắc và phản hồi của mô hình).

Takeaways, Limitations

Takeaways:
Cung cấp hiểu biết sâu hơn về khả năng khái quát hóa của các mô hình ngôn ngữ quy mô lớn (LLM).
Chúng tôi trình bày một khuôn khổ đánh giá mới sử dụng Ngữ pháp xây dựng (CxG).
Chúng tôi đang công bố một tập dữ liệu mới thể hiện rõ ràng những hạn chế của LLM.
Nó góp phần phân tích tác động của sai lệch trong dữ liệu tiền đào tạo đến hiệu suất của LLM.
Limitations:
Bộ dữ liệu đánh giá chỉ tập trung vào các cấu trúc cụm từ tiếng Anh, điều này có thể hạn chế khả năng khái quát hóa sang các ngôn ngữ hoặc cấu trúc khác.
Do phụ thuộc nhiều vào khuôn khổ CxG nên cách diễn giải của nó có thể khác với các quan điểm lý thuyết khác.
Các mô hình được đánh giá có thể còn hạn chế. Cần có thêm các thử nghiệm với phạm vi mô hình rộng hơn.
👍