본 논문은 환경, 사회, 지배구조(ESG) 보고서 자동화를 위해, 기존 ESG 보고서의 공개 내용 색인을 활용하여 GRI와 ESRS 표준에 맞는 대규모 데이터셋 ESG-CID를 구축하는 방법을 제시합니다. ESG 보고서의 길이가 길고 기업별 보고 양식이 다양하여 자동화가 어려운 점을 해결하기 위해, 약한 지도 학습(weak supervision) 기법을 활용하여 대규모 언어 모델(LLM)을 통해 색인과 보고서 섹션 간 매핑을 추출하고 정제하여 강건한 훈련 및 평가 데이터셋을 생성합니다. 다양한 임베딩 모델의 성능을 벤치마킹하여 BERT 기반 모델의 미세 조정을 통해 기존 상용 임베딩 및 주요 공개 모델보다 우수한 성능을 달성함을 보여줍니다. 특히, GRI에서 ESRS로의 보고 스타일 전환을 위한 시간적 데이터 분할에서도 성능이 우수함을 확인합니다.