본 논문은 대규모 언어 모델(LLM)의 과학적 구조 데이터 활용 능력 향상을 위한 연구를 제시합니다. 기존 LLM은 비구조화된 텍스트 데이터에 대한 학습에 집중되어 구조화된 과학 데이터(예: 화학 분자 특성 데이터베이스)를 효과적으로 활용하지 못한다는 점을 지적하며, 화학 분자 과학을 테스트베이스로 삼아 구조화된 과학 데이터를 LLM에 통합하는 방법을 체계적으로 연구합니다. 연속적 사전 학습, 지도 학습 미세 조정, 강화 학습 등 다양한 학습 단계에서 분자 특성 데이터 통합의 영향을 분석하고, 대규모 모델의 숫자에 대한 무감각성 문제를 해결하기 위해 "데이터베이스 피드백을 이용한 강화 학습(RLDBF)"이라는 새로운 방법론을 제안합니다. 실험 결과, 제안된 방법이 이전에 보지 못한 데이터 및 기타 화학적 작업에서 뛰어난 일반화 능력을 보임을 보여주며, LLM 내에서 구조화된 과학 데이터 처리 분야를 발전시킬 가능성을 입증합니다.