대규모 언어 모델(LLM)이 사회 과학 연구의 자동화를 가능하게 하지만, 연구자의 선택(모델 선택, 프롬프트 전략 등)에 따라 LLM의 출력이 크게 달라질 수 있다. 이러한 변동성은 체계적 편향과 무작위 오류를 유발하여 분석에 영향을 미치고, Type I, II, S, M 오류를 발생시킨다. 이러한 현상을 LLM 해킹이라고 지칭한다. 의도적인 LLM 해킹은 간단하게 수행될 수 있으며, 37개의 데이터 주석 작업의 복제를 통해 프롬프트 변형만으로도 통계적으로 유의미한 결과를 얻을 수 있음을 보였다. 또한, 2,361개의 현실적인 가설에 대한 18개의 LLM의 1,300만 개의 라벨 분석 결과, 표준 연구 방식을 따르더라도 우발적인 LLM 해킹의 위험이 높다는 것을 발견했다. 최첨단 LLM의 경우 약 31%, 소규모 언어 모델의 경우 절반의 가설에서 잘못된 결론을 내렸다. 효과 크기가 증가할수록 LLM 해킹 위험이 감소하며, 인간 주석이 거짓 양성을 방지하는 데 중요한 역할을 한다는 것을 확인했다. LLM 해킹을 방지하기 위한 실용적인 권장 사항을 제시한다.