본 논문은 유럽연합 삼림벌채 규정(EUDR) 준수를 위한 정확한 자산 수준의 환경 영향 데이터 확보의 어려움을 해결하기 위해, 대규모 언어 모델(LLM)을 활용한 자동화된 데이터 추출 파이프라인을 제시한다. 기존 데이터베이스의 부족한 상세 정보와 수동 데이터 수집의 한계를 극복하기 위해, 지시적 역할 기반 제로샷 사고 연쇄(IRZ-CoT) 프롬프팅과 실시간 웹 검색을 통합한 검색 증강 검증(RAV) 프로세스를 도입하여 데이터 추출 정확도와 검증 신뢰도를 향상시켰다. 광업, 석유 및 가스, 유틸리티 부문의 SEC EDGAR 제출 자료에 적용하여 기존 방식 대비 성능 향상을 입증하였으며, 규제 준수, CSR, ESG 분야의 NLP 기반 자동화를 발전시키는 데 기여한다.