본 논문은 대규모 언어 모델(LLM)의 사전 학습에서 데이터 품질이 모델 품질을 결정한다는 기존의 생각을 재검토합니다. 사전 및 사후 학습의 공동 설계라는 관점에서 "품질" 개념을 재해석하며, 독성 데이터로 사전 학습하는 것이 사후 학습에서의 제어력 향상으로 이어져 모델의 출력 독성을 감소시킬 수 있다는 가능성을 탐구합니다. 먼저, 간단한 실험을 통해 데이터 구성이 표현 공간에서 특징의 기하학적 구조에 어떻게 영향을 미치는지 연구하고, 다양한 비율의 정제된 데이터와 독성 데이터로 학습된 Olmo-1B 모델을 사용한 제어된 실험을 통해 독성 데이터 비율이 증가함에 따라 독성 개념이 덜 얽힌 선형 표현을 갖는다는 것을 발견합니다. 또한, 독성 데이터는 기본 모델의 생성 독성을 증가시키지만, 동시에 독성을 제거하기 더 쉽게 만든다는 것을 보여줍니다. Toxigen과 Real Toxicity Prompts에 대한 평가 결과, 독성 데이터로 학습된 모델은 추론 시점 개입(ITI)과 같은 독성 제거 기술을 적용할 때 생성 독성 감소와 일반적인 기능 유지 사이에서 더 나은 절충안을 달성합니다. 결론적으로 사후 학습을 고려할 때, 나쁜 데이터가 좋은 모델을 만들 수 있다는 것을 시사합니다.