Bài báo này nghiên cứu khả năng suy luận tiềm năng của các mô hình ngôn ngữ quy mô lớn (LLM), cụ thể là khả năng kết hợp hai sự kiện thông qua việc trả lời câu hỏi hai bước. Các nghiên cứu trước đây đã chỉ ra rằng LLM gặp khó khăn trong việc trả lời câu hỏi hai bước mà không có CoT (Phối hợp quá trình tư duy). Nghiên cứu này tinh chỉnh LLM bằng cách sử dụng các sự kiện tổng hợp, từ đó đánh giá khả năng suy luận thuần túy của chúng mà không cần ghi nhớ hoặc các lối tắt suy luận. Các thí nghiệm với các mô hình như Llama 3 8B và GPT-4o cho thấy rằng mặc dù các mô hình này không kết hợp được hai sự kiện tổng hợp, nhưng chúng lại thành công trong việc kết hợp một sự kiện tổng hợp với một sự kiện ngôn ngữ tự nhiên. Điều này cho thấy LLM có khả năng suy luận hai bước tiềm năng, nhưng vẫn chưa rõ khả năng này mở rộng như thế nào theo quy mô mô hình. Cuối cùng, chúng tôi nhấn mạnh tầm quan trọng của các nhà nghiên cứu suy luận LLM để tránh cả những thành công sai lầm do ghi nhớ hoặc lối tắt suy luận và những thất bại sai lầm do thiết lập thử nghiệm nhân tạo khi đưa ra kết luận về khả năng suy luận tiềm năng của LLM.