대규모 언어 모델(LLM)은 인간 행동 시뮬레이션에 잠재력을 보이지만, 실험 설계를 모르는 LLM 시뮬레이션 주체(인간 피험자와 유사)는 처리 방식의 변화가 상수여야 하는 변수에 체계적으로 영향을 미쳐 unconfoundedness 가정을 위반하는 근본적인 과제가 있습니다. 수요 추정을 맥락으로 40개의 제품을 사용한 실제 실험을 벤치마크로 사용하여, 이는 부자연스러운 결과를 초래할 수 있음을 보여줍니다. Covariate를 통제하여 혼동을 해결할 수 있지만, 이는 LLM 시뮬레이션 맥락에서 생태학적 타당성을 저해할 수 있습니다. 명확하지 않은 프롬프트 전략에서 기인하므로, unblinding을 통한 명확한 프롬프트 전략 개발로 해결할 수 있습니다. 실험 결과는 이 전략이 모든 테스트 모델에서 모델 성능을 향상시키고, fine-tuning을 보완하여 관련 없는 데이터 포함에 대한 예측의 견고성을 향상시킵니다.