본 논문은 대규모 언어 모델(LLM)을 이용한 콘텐츠 조정에서 양성 댓글을 유해 댓글로 잘못 분류하는 과민 반응 문제를 다룬다. 기존 연구는 이 문제를 주로 공격적인 용어의 존재로 설명하지만, 본 논문은 토큰 수준을 넘어선 잠재적인 원인, 즉 LLM의 체계적인 주제 편향을 밝힌다. 암묵적 연상 검사에서 영감을 얻어 주제 연관 분석이라는 의미 수준 접근 방식을 도입하여 LLM이 특정 주제를 유해성과 어떻게 연관시키는지 정량화한다. 잘못 분류된 양성 댓글에 대한 자유 형식 시나리오 상상을 생성하고 주제 증폭 수준을 분석함으로써, 더 발전된 모델(예: GPT-4 Turbo)이 전반적인 오탐율은 낮지만 더 강한 주제 고정관념을 보이는 것을 발견했다. 이러한 편향은 LLM이 단순히 명시적인 공격적인 언어에 반응하는 것이 아니라 학습된 주제 연관성에 의존하여 조정 결정을 내린다는 것을 시사한다. 결론적으로 키워드 기반 필터링을 넘어선 개선의 필요성을 강조하며, LLM 과민 반응의 근본 메커니즘에 대한 통찰력을 제공한다.