제한된 레이블 데이터, 특히 도메인 특정 영역(예: 임상 시험)에서 자연어 처리 모델은 어려움을 겪습니다. 이를 극복하기 위해 텍스트 증강 기법을 사용하여 원본 입력 데이터를 레이블을 유지한 채 인공 데이터로 변환하여 샘플 크기를 늘립니다. 그러나 기존의 텍스트 분류 방법은 증강된 텍스트 간의 관계를 무시하고 독립적인 샘플로 취급하여 분류 오류를 발생시킬 수 있습니다. 따라서 본 논문에서는 상관된 텍스트의 결과를 집계하는 추가 계층을 통합하여 증강을 통해 생성된 텍스트 입력의 의존성을 명시적으로 모델링하는 'Batch Aggregation' (BAGG)이라는 새로운 방법을 제안합니다. 여러 도메인에 걸친 여러 벤치마크 데이터 세트를 연구한 결과, BAGG는 분류 정확도를 향상시킬 수 있음을 발견했습니다. 또한 BAGG를 사용한 성능 향상은 도메인 특정 데이터 세트에서 더욱 두드러지며 정확도가 최대 10~29% 향상되었습니다. 벤치마크 데이터 분석을 통해 제안된 방법은 기존 기법의 한계를 해결하고 텍스트 분류 작업의 강건성을 향상시킵니다. 결과는 BAGG가 훈련 데이터가 제한된 경우 더욱 강력한 결과를 제공하고 기존 방법보다 성능이 우수함을 보여줍니다.