본 논문은 대규모 언어 모델(LLM)을 활용하여 설문 조사 응답을 생성하고, 실제 인간 응답과 비교 분석하여 신뢰성을 평가한 연구이다. 칠레 공공 여론 조사 데이터를 기반으로 GPT 계열, Llama, Qwen 등 다양한 LLM을 사용하여 189,696개의 합성 프로필을 생성하고, 정확도, 정밀도, 재현율, F1-점수 등의 지표를 통해 성능을 평가하였다. 특히 연령, 성별 등 사회 인구 통계적 차원에서의 편향성을 분석하였다.
시사점, 한계점
•
시사점:
◦
LLM 기반 합성 응답은 특정 항목(예: 신뢰 관련 항목)에서는 높은 정확도(F1-score 및 정확도 > 0.90)를 달성할 수 있다.
◦
GPT-4o, GPT-4o-mini, Llama 4 Maverick 등 여러 LLM이 유사한 성능을 보였다.
◦
45-59세 응답자에서 합성 응답과 실제 응답 간의 일치도가 가장 높았다.
◦
LLM 기반 합성 표본은 확률 표본의 응답을 근사적으로 나타낼 수 있다.
•
한계점:
◦
항목 수준에서 상당한 이질성이 존재한다.
◦
공공 여론의 뉘앙스를 완전히 포착하는 데는 어려움이 있으며, 알고리즘의 정확성을 보장하고 오류를 줄이기 위해 추가적인 분포 검정 및 보정이 필요하다.