본 논문은 Vision Transformer(ViT)를 포함한 Transformer 모델의 성능 향상을 위해 새로운 데이터 증강 기법인 ForAug를 제안합니다. ForAug는 사전 학습된 기반 모델을 사용하여 전경 객체와 배경을 분리하고 재결합하여 이미지 구성을 세밀하게 제어함으로써 데이터 다양성을 높이고 효과적인 훈련 샘플 수를 증가시킵니다. ImageNet에 ForAug를 적용한 ForNet으로 ViT 등 다양한 아키텍처를 훈련시킨 결과, ImageNet에서 최대 4.5%p, 하위 작업에서는 최대 7.3%p의 정확도 향상을 달성했습니다. 또한, ForAug는 배경 강건성, 전경 집중도, 중심 편향, 크기 편향 등의 지표를 통해 모델의 편향을 분석하고 정량화하는 새로운 방법을 제시하며, ForNet으로 훈련된 모델은 ImageNet으로 훈련된 모델에 비해 이러한 편향이 상당히 감소함을 보여줍니다. 결론적으로 ForAug는 모델의 편향을 분석하고 완화하는 데 유용한 도구이며, 더욱 강건하고 신뢰할 수 있는 컴퓨터 비전 모델 개발에 기여합니다. 코드와 데이터셋은 공개적으로 제공됩니다.