Bài báo này trình bày một nghiên cứu về cách thức và vị trí các persona, được định nghĩa là tập hợp các đặc điểm, giá trị và niềm tin độc đáo của con người, được mã hóa trong không gian biểu diễn của các mô hình ngôn ngữ quy mô lớn (LLM). Sử dụng các phương pháp giảm chiều và nhận dạng mẫu khác nhau, trước tiên chúng tôi xác định các lớp mô hình thể hiện sự thay đổi lớn nhất trong mã hóa các biểu diễn này. Sau đó, chúng tôi phân tích các kích hoạt trong các lớp được chọn này để xem xét cách các persona cụ thể được mã hóa so với các persona khác, bao gồm cả các không gian nhúng chung và độc lập. Chúng tôi nhận thấy rằng các persona được phân tích trên nhiều LLM chỉ sử dụng bộ giải mã đã được đào tạo trước chỉ thể hiện sự khác biệt đáng kể trong không gian biểu diễn trong một phần ba cuối cùng của lớp giải mã. Các kích hoạt chồng chéo được quan sát thấy đối với các quan điểm đạo đức cụ thể, chẳng hạn như chủ nghĩa hư vô đạo đức và chủ nghĩa vị lợi, cho thấy sự mơ hồ. Ngược lại, các hệ tư tưởng chính trị, chẳng hạn như chủ nghĩa bảo thủ và chủ nghĩa tự do, dường như được biểu diễn ở các vùng riêng biệt hơn. Những phát hiện này giúp chúng tôi hiểu rõ hơn về cách LLM biểu diễn thông tin nội bộ và có thể cung cấp thông tin cho các nỗ lực trong tương lai nhằm cải thiện việc điều chỉnh các đặc điểm cụ thể của con người trong đầu ra LLM. Thận trọng: Bài báo này có chứa các câu ví dụ có khả năng gây khó chịu.