Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mô hình ngôn ngữ có thể không hiểu bạn: Đánh giá lý thuyết tâm trí thông qua gợi ý câu chuyện

Created by
  • Haebom

Tác giả

Nathaniel Getachew, Abulhair Saparov

Phác thảo

StorySim là một khuôn khổ lập trình được dùng để tạo ra các câu chuyện nhân tạo nhằm đánh giá khả năng lý thuyết (ToM) và mô hình hóa thế giới (WM) của các mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết vấn đề ô nhiễm dữ liệu tiền huấn luyện của các chuẩn mực hiện có, StorySim tạo ra các gợi ý câu chuyện mới lạ, mang tính xây dựng dựa trên các bảng phân cảnh được kiểm soát chặt chẽ, cho phép thao tác chính xác các quan điểm và sự kiện của nhân vật. Sử dụng khuôn khổ này, chúng tôi đã thiết kế các nhiệm vụ ToM chính và phụ, cùng với các nhiệm vụ WM để đánh giá khả năng theo dõi và mô hình hóa các trạng thái tinh thần. Các thử nghiệm với các LLM hiện đại cho thấy hầu hết các mô hình thực hiện tốt hơn các nhiệm vụ WM so với các nhiệm vụ ToM và có xu hướng thực hiện tốt hơn trong việc lý luận với con người so với các vật thể vô tri vô giác. Hơn nữa, chúng tôi tìm thấy bằng chứng về các hành vi theo phương pháp kinh nghiệm, chẳng hạn như thiên kiến ​​gần đây và quá phụ thuộc vào các sự kiện ban đầu trong câu chuyện. Tất cả mã để tạo và đánh giá dữ liệu đều được công khai.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu StorySim, một khuôn khổ mới để đánh giá khả năng ToM và WM trong LLM.
Giải quyết vấn đề ô nhiễm dữ liệu đào tạo trước của các điểm chuẩn hiện có, đó là Limitations.
Có thể thiết kế và thao tác tường thuật chính xác nhiều nhiệm vụ ToM và WM khác nhau thông qua bảng phân cảnh.
Cung cấp những hiểu biết mới về khả năng ToM và WM trong LLM (WM > ToM, lý luận của con người > lý luận vô tri, khám phá hành vi kinh nghiệm).
ĐảM bảo khả năng tái tạo và khả năng mở rộng thông qua mã nguồn mở.
Limitations:
Cần nghiên cứu thêm để xác định khả năng khái quát hóa của các câu chuyện do StorySim tạo ra.
Cần có thêm các thí nghiệm trên các loại LLM khác nhau.
Cần phân tích sâu hơn để hiểu được nguyên nhân gốc rễ của hành vi kinh nghiệm.
👍