본 논문은 자연어 처리(NLP) 분야에서 핵심적인 역할을 하는 텍스트 분류에 대해 다룹니다. 특히 컴퓨터 과학 및 공학적 관점에서 심층 학습이 텍스트 분류에 가져온 혁신과, 텍스트 검색, 분류, 정보 추출, 요약 등의 발전에 대해 논의합니다. 영어를 중심으로 연구가 진행되었지만, 아랍어, 중국어, 힌디어 등 다른 언어에 대한 연구도 포함되어 있습니다. 효과적인 텍스트 분류 모델은 복잡한 텍스트 관계와 비선형 상관관계를 포착하는 능력에 크게 의존하며, 따라서 전체 텍스트 분류 파이프라인에 대한 포괄적인 검토가 필요합니다. 본 연구는 기존 및 최신 텍스트 마이닝 방법론을 통합하여 텍스트 분류에 대한 전체적인 이해를 증진시키고, 대규모 언어 모델(LLM)과 생성적 사전 훈련 변환기(GPT)를 포함한 다양한 텍스트 표현 기법과 모델 아키텍처를 검토합니다. 데이터 마이닝, 언어학, 정보 검색 등 다학제적 특성을 지닌 텍스트 분류 분야의 발전을 위해 협력 연구의 중요성을 강조합니다.