Bài báo này nghiên cứu độ tin cậy và tính dễ bị ảnh hưởng bởi sai lệch phản hồi của các mô hình ngôn ngữ quy mô lớn (LLM) làm đối tượng thay thế cho con người trong các cuộc khảo sát khoa học xã hội. Sử dụng bảng câu hỏi Khảo sát Giá trị Thế giới (WVS), chúng tôi đã thực hiện hơn 167.000 cuộc phỏng vấn thử với chín LLM khác nhau, áp dụng 11 thay đổi về định dạng câu hỏi và cấu trúc tùy chọn phản hồi. Chúng tôi nhận thấy rằng LLM không chỉ dễ bị thay đổi mà còn thể hiện sai lệch gần đây nhất quán trên tất cả các mô hình, với các mức độ mạnh yếu khác nhau và ưu tiên tùy chọn phản hồi cuối cùng được đưa ra. Mặc dù các mô hình lớn hơn thường mạnh mẽ hơn, nhưng tất cả các mô hình vẫn nhạy cảm với những thay đổi về ngữ nghĩa như diễn đạt lại và những thay đổi phức tạp. Bằng cách áp dụng một loạt các thay đổi, chúng tôi nhận thấy rằng LLM phù hợp một phần với các sai lệch phản hồi khảo sát được quan sát thấy ở con người. Điều này làm nổi bật tầm quan trọng của thiết kế nhanh chóng và kiểm tra độ mạnh mẽ khi tạo dữ liệu khảo sát tổng hợp bằng LLM.