본 논문은 과학 지식의 광범위한 보급 및 재사용을 제한하는 페이월, 라이선스 및 저작권 규칙에 대한 문제점을 제기하며, 학술 텍스트에서 과학적 지식을 추출하는 것이 법적, 기술적으로 가능하다고 주장합니다. 기존의 텍스트 임베딩과 같은 방법은 사실적 내용을 안정적으로 보존하지 못하고, 단순한 바꿔쓰기는 법적으로 문제가 될 수 있다는 점을 지적합니다. 이에 따라, 저작권이 있는 연구 텍스트에서 지식을 공유하기 위한 법적으로 방어 가능한 프레임워크를 제공하고, 원본 텍스트의 사실적 지식 대부분(~95%)을 보존하는 지식 단위(Knowledge Units)라는 새로운 방법을 제안합니다. 지식 단위는 LLMs를 사용하여 엔티티, 속성, 관계를 포착하는 구조화된 데이터를 활용하며 스타일 정보는 제외합니다. 독일 저작권법과 미국 공정이용 원칙에 대한 법적 분석을 바탕으로 지식 단위의 법적 타당성을 제시하고, 네 가지 연구 분야에 걸쳐 원본 저작권 텍스트의 사실에 대한 MCQ 성능 측정을 통해 사실적 지식 보존율을 입증합니다. 저작권으로부터 과학 지식을 해방시키는 것이 과학 연구와 교육에 혁신적인 이점을 가져다 줄 것이며, 이를 지원하기 위해 연구 문서를 지식 단위로 변환하는 오픈소스 도구를 공유합니다. 결론적으로, 본 연구는 저작권을 존중하면서 과학 지식에 대한 접근을 민주화할 수 있는 실현 가능성을 제시합니다.