본 논문은 기존 건물 에너지 개선 의사결정 방식의 일반화 및 해석력 부족 문제를 해결하기 위해 생성형 AI, 특히 대규모 언어 모델(LLM)을 활용하는 방안을 제시합니다. 7가지 LLM (ChatGPT, DeepSeek, Gemini, Grok, Llama, Claude)을 대상으로, 이산화탄소 감소량 극대화(기술적 목표)와 투자 회수 기간 최소화(사회기술적 목표)라는 두 가지 목표 하에 49개 주 400가구의 데이터셋을 이용하여 주택 개선 결정에 대한 성능을 평가했습니다. 평가 지표는 정확도, 일관성, 민감도, 추론 능력이며, LLM은 상당수 경우 효과적인 권장 사항을 생성했고, 미세 조정 없이 최상위 1개 일치율 54.5%, 최상위 5개 일치율 92.8%에 도달했습니다. 기술적 목표에 대한 성능이 더 우수했으며, 사회기술적 결정은 경제적 절충 및 지역적 맥락에 의해 제한되었습니다. 모델 간의 합의는 낮았고, 성능이 우수한 모델은 다른 모델과의 차이가 더 컸습니다. LLM은 위치와 건물 형상에 민감하지만 기술 및 거주자 행동에는 덜 민감했습니다. 대부분의 모델은 단계별 엔지니어링 방식의 추론을 보여주었지만, 종종 단순화되었고 심층적인 맥락 인식이 부족했습니다. 전반적으로 LLM은 에너지 개선 의사결정을 위한 유망한 보조 도구이지만, 신뢰할 수 있는 실제 적용을 위해서는 정확성, 일관성 및 맥락 처리 개선이 필요합니다.