본 논문은 대규모 언어 모델(LLM)의 한계점을 극복하기 위해 새로운 미세 조정 방법인 개념 인식 미세 조정(CAFT)을 제시합니다. 기존의 토큰 단위 예측 방식은 LLMs가 일관성 있는 고차원 개념을 형성하는 데 제한을 가지는데, CAFT는 여러 토큰에 걸친 시퀀스 학습을 가능하게 함으로써 이 문제를 해결합니다. 이는 단어를 개별 토큰으로 분해하여 학습하는 대신, "ribonucleic acid"와 같이 의미있는 단위로 인식하고 학습하는 것을 의미합니다. 본 연구는 텍스트 요약과 같은 전통적인 응용 분야뿐만 아니라 새로운 단백질 설계와 같은 특정 분야에서 기존의 토큰 단위 미세 조정 방법보다 CAFT의 성능이 훨씬 향상되었음을 실험적으로 입증합니다. 특히, CAFT는 사전 훈련 단계에 국한되었던 다중 토큰 예측을 사후 훈련 단계로 확장하여 접근성을 높였습니다.