본 논문은 전자상거래에서 비용과 시간이 많이 드는 실제 사용자 데이터 기반 의사결정 대신, 대규모 언어 모델(LLM) 기반 에이전트를 활용한 시뮬레이션을 제안합니다. LLM의 편향성 문제를 해결하기 위해 익명화된 과거 쇼핑 데이터에서 사용자 페르소나를 자동으로 추출하여 합성 쇼핑 에이전트를 생성하고, 이들이 실제 사용자 집단과 유사하게 행동하는지 평가하는 프레임워크를 제시합니다. 기존의 개별 에이전트 단위 평가 대신, 집단 수준에서의 분포 차이를 측정하는 새로운 정렬 기법을 도입하여, 페르소나 활용이 성능 향상에 기여함을 실험적으로 보여줍니다. 또한, 자동화된 에이전트 기반 A/B 테스트에 대한 초기 적용 사례와 인간 결과와의 비교를 제시하며, 향후 연구의 방향을 제시합니다.