본 논문은 ESG 보고서의 복잡성을 해결하기 위해 개발된 Pharos-ESG 프레임워크를 제시한다. Pharos-ESG는 다중 모달 파싱, 문맥적 내러티브 생성, 계층적 레이블링을 통해 ESG 보고서를 구조화된 표현으로 변환한다. 레이아웃 흐름 기반의 읽기 순서 모델링, 목차 앵커를 활용한 계층 인식 분할, 시각적 요소를 자연어로 변환하는 다중 모달 집계 파이프라인을 통합한다. 또한, ESG, GRI, 감성 레이블을 통해 출력을 풍부하게 만들고 금융 연구의 분석적 요구에 맞춰 주석을 생성한다. Pharos-ESG는 문서 파싱 시스템 및 일반적인 다중 모달 모델보다 우수한 성능을 보이며, 대규모 ESG 보고서 데이터세트인 Aurora-ESG를 공개한다.