ChatPD는 대규모 언어 모델(LLM)을 활용하여 학술 논문에서 데이터셋 정보를 자동으로 추출하고 구조화된 논문-데이터셋 네트워크를 구축하는 시스템이다. 논문 수집, 데이터셋 정보 추출, 데이터셋 개체 연결 해결이라는 세 가지 주요 모듈로 구성되며, 그래프 완성 및 추론 전략을 통해 데이터셋 설명을 해당 개체에 매핑한다. 기존 플랫폼인 PapersWithCode보다 우수한 성능을 보이며, 개체 연결 작업에서 약 90%의 정밀도와 재현율을 달성했다. 현재 지속적으로 논문에서 사용된 데이터셋을 추출하고, 작업별 데이터셋 쿼리 및 유사 데이터셋 추천과 같은 데이터셋 검색 서비스를 제공하며, 시스템과 구축된 논문-데이터셋 네트워크를 오픈소스로 공개했다.