본 논문은 대규모 언어 모델(LLM)을 사회과학 연구에 활용할 때 발생하는 'LLM 해킹' 문제를 다룬다. LLM을 이용한 데이터 주석 및 텍스트 분석은 연구자의 모델 선택, 프롬프트 전략, 온도 설정 등 구현 선택에 따라 출력 결과가 크게 달라질 수 있으며, 이는 체계적인 편향과 무작위 오류를 유발하여 1종, 2종, S종, M종 오류를 야기할 수 있다. 연구진은 21개의 사회과학 연구 논문에서 발췌한 37개의 데이터 주석 작업을 18개의 다른 모델로 복제하여 1300만 개의 LLM 레이블을 분석하고, 2361개의 가설을 검증하여 연구자의 선택이 통계적 결론에 미치는 영향을 측정했다. 그 결과, 최첨단 모델의 경우 약 3분의 1의 가설에서, 소규모 언어 모델의 경우 약 절반의 가설에서 LLM 주석 데이터를 기반으로 잘못된 결론을 도출하는 것으로 나타났다. 높은 작업 성능과 우수한 일반적인 모델 기능이 LLM 해킹 위험을 줄이지만 완전히 제거하지는 못하며, 효과 크기가 커질수록 LLM 해킹 위험은 감소한다. 또한, 의도적인 LLM 해킹은 매우 간단하게 수행될 수 있으며, 소수의 LLM과 몇 가지 프롬프트 변형만으로도 어떤 결과든 통계적으로 유의미한 것으로 제시될 수 있음을 보여준다. 결론적으로, LLM을 활용한 사회과학 연구는 인간의 주석 작업과 신중한 모델 선택을 통해 오류를 최소화해야 한다는 점을 강조한다.