본 논문은 대규모 언어 모델(LLM)의 의사결정 과정과 내재된 성격을 이해하기 위해, 다양한 장르의 기사들을 포함하는 새로운 데이터셋인 Supernova Event Dataset을 제안합니다. 이 데이터셋을 사용하여 LLM들이 텍스트에서 주요 사건을 추출하고 순위를 매기는 작업을 벤치마킹합니다. 이는 장기적인 맥락에 대한 추론과 인과 관계 모델링을 필요로 하는 주관적이고 복잡한 과제입니다. Phi-4, Orca 2, Qwen 2.5와 같은 소규모 모델과 Claude 3.7, Gemini 2.5, OpenAI o3와 같은 대규모 모델을 평가하고, 다른 LLM이 각 모델의 사건 선택 및 분류를 기반으로 성격을 추론하는 프레임워크를 제시합니다. 분석 결과, Orca 2는 대인 관계 역학에 초점을 맞춘 감정적 추론을 보이는 반면, Qwen 2.5는 더 전략적이고 분석적인 스타일을 보이는 등, 각 모델마다 구별되는 성격 특성을 보여줍니다. 과학적 발견 사건 분석에서는 Claude Sonnet 3.7이 개념적 프레임에, Gemini 2.5 Pro는 경험적 검증에, o3는 단계별 인과 추론에 중점을 두는 것으로 나타났습니다. 이 분석은 모델의 해석성을 향상시켜 다양한 응용 분야에서 사용자 친화적인 모델을 만드는 데 기여합니다.