Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Retrieval for ESGLLM via ESG-CID -- A Disclosure Content Index Finetuning Dataset for Mapping GRI and ESRS

Created by
  • Haebom
Category
Empty

저자

Shafiuddin Rehan Ahmed, Ankit Parag Shah, Quan Hung Tran, Vivek Khetan, Sukryool Kang, Ankit Mehta, Yujia Bao, Wei Wei

개요

본 논문은 환경, 사회, 지배구조(ESG) 보고서 자동화를 위해, 기존 ESG 보고서의 공개 내용 색인을 활용하여 GRI와 ESRS 표준에 맞는 대규모 데이터셋 ESG-CID를 구축하는 방법을 제시합니다. ESG 보고서의 길이가 길고 기업별 보고 양식이 다양하여 자동화가 어려운 점을 해결하기 위해, 약한 지도 학습(weak supervision) 기법을 활용하여 대규모 언어 모델(LLM)을 통해 색인과 보고서 섹션 간 매핑을 추출하고 정제하여 강건한 훈련 및 평가 데이터셋을 생성합니다. 다양한 임베딩 모델의 성능을 벤치마킹하여 BERT 기반 모델의 미세 조정을 통해 기존 상용 임베딩 및 주요 공개 모델보다 우수한 성능을 달성함을 보여줍니다. 특히, GRI에서 ESRS로의 보고 스타일 전환을 위한 시간적 데이터 분할에서도 성능이 우수함을 확인합니다.

시사점, 한계점

시사점:
ESG 보고서 자동화를 위한 새로운 데이터셋 ESG-CID 구축 및 활용 방안 제시.
약한 지도 학습 기법을 활용한 효율적인 데이터셋 구축 전략 제시.
BERT 기반 모델 미세 조정을 통한 ESG 보고서 자동화 성능 향상 가능성 제시.
GRI와 ESRS 표준 모두에 적용 가능한 일반화된 접근 방식 제시.
한계점:
ESG-CID 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요.
LLM을 이용한 데이터 정제 과정의 주관성 및 오류 가능성 고려.
실제 ESG 보고서 자동화 시스템 구축 및 적용에 대한 추가적인 연구 필요.
특정 언어 모델과 표준에 대한 의존성 고려.
👍