본 논문은 환경, 사회, 지배구조(ESG) 및 지속가능성 관련 질의응답에서 대규모 언어 모델(LLM)의 능력을 평가하고 향상시키기 위한 종합적인 벤치마크인 ESGenius를 소개한다. ESGenius는 두 가지 주요 구성 요소로 이루어져 있다. 첫째, 도메인 전문가에 의해 엄격하게 검증된 1,136개의 객관식 질문(MCQ)으로 구성된 ESGenius-QA는 광범위한 ESG 분야와 지속가능성 주제를 다룬다. 각 질문은 해당 소스 텍스트와 체계적으로 연결되어 투명한 평가와 검색 증강 생성(RAG) 방법을 지원한다. 둘째, ESGenius-Corpus는 7개의 권위 있는 출처에서 가져온 231개의 기본 프레임워크, 표준, 보고서 및 권장 사항 문서로 구성된 정교하게 관리된 저장소이다. LLM의 능력과 적응력을 완벽하게 평가하기 위해 제로샷과 RAG 두 단계의 엄격한 평가 프로토콜을 구현하였다. 50개의 LLM(0.5B671B)에 대한 광범위한 실험 결과, 최첨단 모델은 제로샷 설정에서 중간 정도의 성능(약 5570%)만 달성하여 이 특수하고 학제 간 영역에서 LLM의 상당한 지식 격차를 보여준다. 그러나 RAG를 사용하는 모델은 특히 소규모 모델에서 성능이 크게 향상된다. 예를 들어, DeepSeek-R1-Distill-Qwen-14B는 제로샷에서 63.82%에서 RAG를 사용하여 80.46%로 향상된다. 이러한 결과는 향상된 ESG 이해를 위해 권위 있는 출처에 응답을 근거해야 함을 보여준다. ESGenius는 ESG 및 지속가능성 지식에 대한 LLM을 엄격하게 평가하도록 설계된 최초의 종합적인 QA 벤치마크이며, 이 중요한 영역에서 신뢰할 수 있는 AI를 발전시키는 데 중요한 도구를 제공한다.