Bài báo này sử dụng dữ liệu về số huy chương Olympic trong lịch sử để khám phá cấu trúc kiến thức nội tại của một mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi đánh giá hiệu suất của LLM trên hai nhiệm vụ: truy xuất số huy chương của một quốc gia nhất định và xác định thứ hạng của mỗi quốc gia. Chúng tôi nhận thấy rằng mặc dù các LLM hiện đại rất giỏi trong việc truy xuất huy chương, nhưng chúng lại gặp khó khăn trong việc xếp hạng. Phát hiện này làm nổi bật sự khác biệt giữa tổ chức kiến thức của LLM và tư duy của con người, đồng thời chỉ ra những hạn chế trong việc tích hợp kiến thức nội tại của LLM. Để tạo điều kiện thuận lợi cho nghiên cứu, chúng tôi đã công khai mã nguồn, tập dữ liệu và đầu ra của mô hình.