Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AI cấp độ đường phố: Các mô hình ngôn ngữ lớn đã sẵn sàng cho các phán đoán trong thế giới thực chưa?

Created by
  • Haebom

Tác giả

Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das

Phác thảo

Bài báo này đánh giá các nghiên cứu gần đây khám phá những tác động về mặt đạo đức và xã hội của các mô hình AI quy mô lớn khi đưa ra những phán đoán "đạo đức". Trong khi các nghiên cứu trước đây chủ yếu tập trung vào sự phù hợp với phán đoán của con người thông qua các thí nghiệm tư duy khác nhau hoặc tính công bằng tập thể của phán đoán AI, bài báo này tập trung vào ứng dụng trực tiếp và đầy hứa hẹn nhất của AI: hỗ trợ hoặc thay thế các quan chức tuyến đầu trong việc xác định phân bổ nguồn lực xã hội khan hiếm hoặc phê duyệt phúc lợi. Dựa trên nền tảng lịch sử phong phú về cách các xã hội xác định cơ chế ưu tiên để phân bổ nguồn lực khan hiếm, bài báo này sử dụng dữ liệu thực tế về nhu cầu dịch vụ cho người vô gia cư để xem xét mức độ phù hợp giữa các phán đoán của LLM với phán đoán của con người và các hệ thống chấm điểm mức độ dễ bị tổn thương hiện đang được sử dụng (để bảo mật dữ liệu, chỉ các mô hình quy mô lớn, cục bộ mới được sử dụng). Phân tích cho thấy sự không nhất quán đáng kể trong các quyết định ưu tiên của LLM trên nhiều khía cạnh: giữa các lần triển khai, giữa các LLM và giữa các LLM với các hệ thống chấm điểm mức độ dễ bị tổn thương. Đồng thời, các LLM thể hiện sự đồng thuận về mặt định tính với phán đoán điển hình của con người trong các bài kiểm tra so sánh hai chiều. Những kết quả này cho thấy các hệ thống AI thế hệ hiện tại đơn giản là chưa sẵn sàng để được tích hợp vào quá trình ra quyết định xã hội mang tính rủi ro cao.

Takeaways, Limitations

Takeaways: Các chương trình LLM hiện tại cho thấy độ tin cậy chưa đủ để sử dụng trực tiếp trong việc ra quyết định xã hội có rủi ro cao (ví dụ: phân bổ nguồn lực khan hiếm). Mặc dù các đánh giá của LLM phù hợp với đánh giá của con người ở một số khía cạnh, nhưng chúng thiếu tính nhất quán nội tại và nhất quán với các hệ thống khác. Các phân tích sử dụng dữ liệu thực tế mang lại những hàm ý quan trọng cho khả năng ứng dụng thực tế của các hệ thống AI.
Limitations: Nghiên cứu này chỉ giới hạn trong một lĩnh vực cụ thể (phân bổ nguồn lực cho người vô gia cư) và khả năng khái quát hóa sang các lĩnh vực ra quyết định xã hội khác còn hạn chế. Mặc dù tính bảo mật dữ liệu được duy trì bằng cách chỉ sử dụng các mô hình quy mô lớn, mang tính khu vực, nhưng không thể loại trừ khả năng các đặc điểm của mô hình có thể ảnh hưởng đến kết quả. Tính nhất quán về mặt định tính của các bằng Thạc sĩ Luật (LLM) có thể mang tính chủ quan hơn so với các biện pháp định lượng.
👍