Bài báo này trình bày một phương pháp khám phá và căn chỉnh các đặc trưng trên các điểm kiểm tra mô hình bằng cách sử dụng bộ mã hóa chéo thưa thớt để hiểu khi nào và bằng cách nào các khả năng ngôn ngữ cụ thể xuất hiện trong quá trình tiền huấn luyện các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi mong muốn khắc phục những hạn chế của các phương pháp đánh giá chuẩn hiện có và hiểu rõ quá trình huấn luyện mô hình ở cấp độ khái niệm. Cụ thể, chúng tôi huấn luyện bộ mã hóa chéo trên ba cặp điểm kiểm tra nguồn mở với hiệu suất và biến thiên biểu diễn đáng kể, đồng thời giới thiệu một thước đo mới, hiệu ứng gián tiếp tương đối (RelIE), để theo dõi các giai đoạn huấn luyện mà tại đó các đặc trưng riêng lẻ trở nên quan trọng về mặt nhân quả đối với hiệu suất tác vụ. Chúng tôi chứng minh rằng điều này cho phép phát hiện sự xuất hiện, duy trì và gián đoạn của các đặc trưng trong quá trình tiền huấn luyện. Phương pháp độc lập với kiến trúc và có khả năng mở rộng cao này mở ra một hướng đi đầy hứa hẹn hướng tới phân tích chi tiết và dễ diễn giải về quá trình học biểu diễn trên toàn bộ quá trình tiền huấn luyện.