Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language Models

Created by
  • Haebom

저자

Yongan Yu, Qingchen Hu, Xianda Du, Jiayin Wang, Fengran Mo, Renee Sieber

개요

본 논문은 대규모 언어 모델(LLMs)을 활용하여 기후변화 적응 전략을 개선하기 위한 연구를 제시합니다. 고품질 데이터셋 구축의 어려움과 적절한 벤치마크 부재로 인해 LLMs의 효과성이 충분히 탐구되지 못한 현실을 인지하고, 지역 신문에 기록된 기후 관련 사건들을 활용하여 4단계의 정교한 파이프라인을 통해 '파괴적 기상 영향 데이터셋'을 구축합니다. 이를 바탕으로, LLMs의 파괴적 기상 영향 이해 능력을 평가하기 위한 최초의 벤치마크인 WXImpactBench를 제안합니다. WXImpactBench는 다중 레이블 분류와 순위 기반 질의응답 두 가지 평가 과제를 포함하며, 다양한 LLMs에 대한 실험을 통해 파괴적 기상 영향 이해 및 기후변화 적응 시스템 개발의 과제를 분석합니다. 구축된 데이터셋과 평가 프레임워크 코드를 공개하여 사회적 재난 취약성 완화에 기여하고자 합니다.

시사점, 한계점

시사점:
지역 신문 데이터를 활용한 파괴적 기상 영향 데이터셋 구축 방법 제시
LLMs의 기후변화 적응 시스템 개발 가능성 탐색 및 평가 프레임워크 제공
다중 레이블 분류 및 순위 기반 질의응답을 통한 LLMs 성능 평가
재난 취약성 완화를 위한 데이터셋 및 코드 공개
한계점:
데이터셋의 지역적 편향 가능성 (지역 신문 데이터 활용의 한계)
평가 벤치마크의 일반화 가능성에 대한 추가 연구 필요
LLMs의 해석 가능성 및 신뢰성에 대한 추가적인 검토 필요
👍