본 논문은 텍스트 기반의 자동 성격 예측(APPT)을 위해 대규모 언어 모델(LLM)의 성능을 평가한다. 이진 Five Factor Model(BIG5)을 기반으로, GPT-4를 포함한 5가지 모델을 세 개의 서로 다른 데이터셋과 두 가지 프롬프트 전략(최소 프롬프트 vs. 언어적, 심리적 단서가 풍부한 프롬프트)을 사용하여 테스트했다. 풍부한 프롬프트는 무효 출력을 줄이고 클래스 균형을 개선했지만, 특성 존재를 예측하는 데 편향을 일으켰다. Openness와 Agreeableness는 비교적 쉽게 감지되었지만, Extraversion과 Neuroticism은 여전히 어려움을 겪었다. 오픈 소스 모델은 때때로 GPT-4 및 이전 벤치마크에 근접했지만, 어떠한 구성에서도 제로샷 이진 설정에서 일관되게 신뢰할 수 있는 예측을 얻지 못했다. 정확도 및 macro-F1과 같은 집계 지표는 상당한 비대칭성을 가리는 반면, 클래스별 재현율은 더 명확한 진단적 가치를 제공했다.