Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference

Created by
  • Haebom

저자

Han Wang, Jacek Pawlak, Aruna Sivakumar

개요

본 연구는 대규모 언어 모델(LLM)을 활용하여 에너지 관련 선호도 조사(SP) 설문조사에서 소비자 선택을 시뮬레이션하는 가능성을 조사한다. 기존의 SP 설문조사는 비용이 많이 들고 시간이 오래 걸리며 응답자 피로도와 윤리적 제약을 받는다는 한계를 지닌다. 본 연구는 LLaMA 3.1, Mistral, GPT-3.5, DeepSeek-R1 등 여러 LLM을 사용하여 개별 및 집계 수준에서 시뮬레이션 성능을 평가하고, 프롬프트 디자인, 문맥 내 학습(ICL), 사고 연쇄(CoT) 추론, 모델 유형, 기존 선택 모델과의 통합, 잠재적 편향 등을 고려하였다. LLM은 무작위 추측보다 높은 정확도를 달성하지만, 실제 시뮬레이션에 사용하기에는 성능이 부족하다. DeepSeek-R1이 가장 높은 평균 정확도(77%)를 달성했으며, 비추론 LLM보다 정확도, 요인 식별, 선택 분포 정렬 측면에서 우수한 성능을 보였다. 이전 SP 선택이 가장 효과적인 입력이며, 요인이 많을수록 정확도가 낮아진다. 혼합 로짓 모델은 LLM 프롬프트 개선을 지원할 수 있다. 추론 LLM은 요인의 중요성을 나타냄으로써 데이터 분석에 질적 보완을 제공한다. 사전 훈련된 LLM은 확장성이 뛰어나고 최소한의 과거 데이터만 필요하지만, 여전히 한계가 존재한다.

시사점, 한계점

시사점:
사전 훈련된 LLM은 SP 설문조사 데이터 수집 및 분석에 확장성 있는 대안을 제공한다.
추론 능력을 갖춘 LLM은 통계 모델에 질적인 보완을 제공할 수 있다.
LLM 프롬프트 디자인 및 혼합 로짓 모델을 통한 개선 가능성이 존재한다.
최소한의 과거 데이터만으로도 LLM을 활용할 수 있다.
DeepSeek-R1과 같은 일부 LLM은 기존 방식보다 높은 정확도를 보인다.
한계점:
현재 LLM의 정확도는 실제 적용에는 부족하다.
클라우드 기반 LLM이 항상 소규모 로컬 모델보다 우수한 것은 아니다.
프롬프트 길이가 길어지고 요인이 많아질수록 정확도가 감소한다.
LLM의 잠재적 편향 문제가 해결되어야 한다.
프롬프트 디자인, CoT 추론, 파인튜닝 기술에 대한 추가 연구가 필요하다.
👍