Bài báo này nghiên cứu liệu các mô hình ngôn ngữ quy mô lớn (LLM) có thể suy luận về thông tin trong dữ liệu huấn luyện của chúng hay không. Cụ thể, chúng tôi tập trung vào khả năng suy luận ngoài ngữ cảnh, khả năng suy ra lời giải thích hợp lý nhất cho một quan sát bằng cách sử dụng thông tin liên quan có trong dữ liệu huấn luyện. Các nhà nghiên cứu đã huấn luyện LLM bằng tên và mô tả hành vi của các chatbot hư cấu, loại trừ các ví dụ về cuộc trò chuyện với các chatbot. Họ phát hiện ra rằng GPT-4 của OpenAI có thể suy ra chính xác tên của chatbot sau khi quan sát các phản hồi đặc trưng của nó. Hơn nữa, khi được huấn luyện trước với các mô tả hành vi của chatbot, GPT-4 đã chứng minh rằng nó có thể nắm bắt tốt hơn các hành vi đặc trưng của chatbot thông qua huấn luyện lặp lại. Những kết quả này cung cấp những hiểu biết có giá trị về nhận thức ngữ cảnh của LLM và tính an toàn của AI.