Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can AI Make Energy Retrofit Decisions? An Evaluation of Large Language Models

Created by
  • Haebom

저자

Lei Shu, Dong Zhao

개요

본 논문은 기존 건물 에너지 개선 의사결정 방식의 일반화 및 해석력 부족 문제를 해결하기 위해 생성형 AI, 특히 대규모 언어 모델(LLM)을 활용하는 방안을 제시합니다. 7가지 LLM (ChatGPT, DeepSeek, Gemini, Grok, Llama, Claude)을 대상으로, 이산화탄소 감소량 극대화(기술적 목표)와 투자 회수 기간 최소화(사회기술적 목표)라는 두 가지 목표 하에 49개 주 400가구의 데이터셋을 이용하여 주택 개선 결정에 대한 성능을 평가했습니다. 평가 지표는 정확도, 일관성, 민감도, 추론 능력이며, LLM은 상당수 경우 효과적인 권장 사항을 생성했고, 미세 조정 없이 최상위 1개 일치율 54.5%, 최상위 5개 일치율 92.8%에 도달했습니다. 기술적 목표에 대한 성능이 더 우수했으며, 사회기술적 결정은 경제적 절충 및 지역적 맥락에 의해 제한되었습니다. 모델 간의 합의는 낮았고, 성능이 우수한 모델은 다른 모델과의 차이가 더 컸습니다. LLM은 위치와 건물 형상에 민감하지만 기술 및 거주자 행동에는 덜 민감했습니다. 대부분의 모델은 단계별 엔지니어링 방식의 추론을 보여주었지만, 종종 단순화되었고 심층적인 맥락 인식이 부족했습니다. 전반적으로 LLM은 에너지 개선 의사결정을 위한 유망한 보조 도구이지만, 신뢰할 수 있는 실제 적용을 위해서는 정확성, 일관성 및 맥락 처리 개선이 필요합니다.

시사점, 한계점

시사점:
생성형 AI, 특히 LLM이 건물 에너지 개선 의사결정 지원 도구로서의 가능성을 보여줌.
기술적 목표(CO2 감소)에 대한 LLM의 성능이 사회기술적 목표(투자 회수 기간)보다 우수함.
LLM이 위치 및 건물 형상 정보를 효과적으로 활용 가능함.
단계별 추론 과정을 통해 설명 가능성을 제공함.
한계점:
모델 간 일관성 부족 및 성능 차이 존재.
사회기술적 목표 달성에 있어 경제적 절충 및 지역적 맥락 고려의 어려움.
기술 및 거주자 행동에 대한 민감도 부족.
추론 과정의 단순화 및 심층적 맥락 인식 부족.
정확도 및 일관성 개선 필요.
👍