Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Created by
  • Haebom

저자

Chaoyue He, Xin Zhou, Yi Wu, Xinjia Yu, Yan Zhang, Lei Zhang, Di Wang, Shengfei Lyu, Hong Xu, Xiaoqiao Wang, Wei Liu, Chunyan Miao

개요

본 논문은 환경, 사회, 지배구조(ESG) 및 지속가능성 관련 질의응답에서 대규모 언어 모델(LLM)의 능력을 평가하고 향상시키기 위한 종합적인 벤치마크인 ESGenius를 소개합니다. ESGenius는 LLM이 생성하고 도메인 전문가가 엄격하게 검증한 1,136개의 객관식 질문으로 구성된 ESGenius-QA와 7개의 권위 있는 출처에서 가져온 231개의 기본 프레임워크, 표준, 보고서 및 권장 사항 문서로 구성된 ESGenius-Corpus의 두 가지 주요 구성 요소로 이루어져 있습니다. 각 질문은 해당 소스 텍스트와 체계적으로 연결되어 투명한 평가와 검색 증강 생성(RAG) 방법을 지원합니다. 50개의 LLM(0.5B671B 매개변수)을 대상으로 제로샷 및 RAG라는 두 단계 평가 프로토콜을 통해 광범위한 실험을 수행하여 최첨단 모델조차 제로샷 설정에서 중간 수준의 성능(약 5570%)만 달성한다는 것을 보여줍니다. 하지만 RAG를 사용하는 모델은 특히 소규모 모델에서 성능이 크게 향상됩니다. 예를 들어, "DeepSeek-R1-Distill-Qwen-14B"는 제로샷에서 63.82%에서 RAG를 사용하면 80.46%로 향상됩니다. 이러한 결과는 향상된 ESG 이해를 위해 권위 있는 출처에 응답을 근거해야 할 필요성을 강조합니다. ESGenius는 ESG 및 지속가능성 주제에 중점을 둔 LLM 및 관련 향상 기술을 위해 엄선된 최초의 벤치마크입니다.

시사점, 한계점

시사점:
ESG 및 지속가능성 분야에서 LLM의 성능을 평가하고 향상시키기 위한 종합적인 벤치마크를 제공합니다.
제로샷 설정과 RAG 설정에서 LLM의 성능 차이를 명확히 보여주어 RAG의 중요성을 강조합니다.
권위 있는 출처에 기반한 응답의 중요성을 강조합니다.
다양한 규모의 LLM에 대한 실험 결과를 통해 모델의 성능을 비교 분석할 수 있는 기반을 마련합니다.
한계점:
현재까지 ESG 및 지속가능성 분야에 특화된 최초의 벤치마크이지만, 데이터의 규모 및 다양성 측면에서 향후 확장 및 개선의 여지가 있습니다.
벤치마크에 포함된 질문의 편향성 여부에 대한 추가적인 검토가 필요할 수 있습니다.
RAG 기법의 효과는 사용된 데이터 소스의 질에 크게 의존하므로, 데이터 소스의 품질 관리가 중요합니다.
👍