본 논문은 미국 법전(U.S.C.)과 같은 복잡한 법률 문서에서 정의를 자동으로 추출하는 고급 NLP 시스템을 제시합니다. 20만 페이지가 넘는 연방 법규의 복잡한 법률 문서에서 정의된 용어, 그 정의, 그리고 그 범위를 자동으로 추출하는 과제를 다룹니다. 기존의 특징 기반 머신러닝 방법을 기반으로, 법률 문서에 특화된 트랜스포머 모델(Legal-BERT)을 사용하여 정확도를 크게 향상시켰습니다. XML 버전의 미국 법전을 처리하기 위해 문서 구조 분석과 최첨단 언어 모델을 결합한 다단계 파이프라인을 구현했습니다. 각 단락은 미세 조정된 법률 도메인 BERT 모델을 사용하여 정의가 포함되어 있는지 분류하고, 관련 단락을 일관된 정의 단위로 집계한 후, 어텐션 메커니즘과 규칙 기반 패턴을 결합하여 정의된 용어와 그 관할 범위를 추출합니다. 수천 개의 정의를 포함하는 미국 법전의 여러 편을 대상으로 시스템을 평가한 결과, 기존 방법보다 상당한 성능 향상을 보였으며, 96.8%의 정밀도와 98.9%의 재현율(98.2% F1-점수)을 달성했습니다. 이 연구는 법률 정보에 대한 접근성과 이해도를 높이고, 후속 법적 추론 작업의 기반을 마련하는 데 기여합니다.