Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Created by
  • Haebom

저자

Chaoyue He, Xin Zhou, Yi Wu, Xinjia Yu, Yan Zhang, Lei Zhang, Di Wang, Shengfei Lyu, Hong Xu, Xiaoqiao Wang, Wei Liu, Chunyan Miao

개요

본 논문은 환경, 사회, 지배구조(ESG) 및 지속가능성 관련 질의응답에서 대규모 언어 모델(LLM)의 능력을 평가하고 향상시키기 위한 종합적인 벤치마크인 ESGenius를 소개한다. ESGenius는 두 가지 주요 구성 요소로 이루어져 있다. 첫째, 도메인 전문가에 의해 엄격하게 검증된 1,136개의 객관식 질문(MCQ)으로 구성된 ESGenius-QA는 광범위한 ESG 분야와 지속가능성 주제를 다룬다. 각 질문은 해당 소스 텍스트와 체계적으로 연결되어 투명한 평가와 검색 증강 생성(RAG) 방법을 지원한다. 둘째, ESGenius-Corpus는 7개의 권위 있는 출처에서 가져온 231개의 기본 프레임워크, 표준, 보고서 및 권장 사항 문서로 구성된 정교하게 관리된 저장소이다. LLM의 능력과 적응력을 완벽하게 평가하기 위해 제로샷과 RAG 두 단계의 엄격한 평가 프로토콜을 구현하였다. 50개의 LLM(0.5B671B)에 대한 광범위한 실험 결과, 최첨단 모델은 제로샷 설정에서 중간 정도의 성능(약 5570%)만 달성하여 이 특수하고 학제 간 영역에서 LLM의 상당한 지식 격차를 보여준다. 그러나 RAG를 사용하는 모델은 특히 소규모 모델에서 성능이 크게 향상된다. 예를 들어, DeepSeek-R1-Distill-Qwen-14B는 제로샷에서 63.82%에서 RAG를 사용하여 80.46%로 향상된다. 이러한 결과는 향상된 ESG 이해를 위해 권위 있는 출처에 응답을 근거해야 함을 보여준다. ESGenius는 ESG 및 지속가능성 지식에 대한 LLM을 엄격하게 평가하도록 설계된 최초의 종합적인 QA 벤치마크이며, 이 중요한 영역에서 신뢰할 수 있는 AI를 발전시키는 데 중요한 도구를 제공한다.

시사점, 한계점

시사점:
ESG 및 지속가능성 영역에서 LLM의 성능을 객관적으로 평가할 수 있는 종합적인 벤치마크 제공.
RAG 기법을 활용한 LLM 성능 향상 가능성 제시.
LLM의 ESG 관련 지식 격차를 명확히 보여줌으로써 향후 연구 방향 제시.
신뢰할 수 있는 AI 개발을 위한 중요한 도구 제공.
한계점:
ESGenius-QA의 질문 수 (1,136개)가 충분하지 않을 수 있음.
특정 영역 또는 출처에 편향된 데이터셋일 가능성 존재.
RAG 기법의 효과는 사용되는 데이터 소스의 질에 크게 의존.
다양한 유형의 ESG 관련 질문을 포괄하지 못할 가능성.
👍