대규모 언어 모델을 활용한 재귀적 프롬프팅은 확장 가능한 합성 데이터 세트 생성을 가능하게 하지만, 편향 증폭의 위험을 내포한다. 본 연구에서는 세 가지 보완적 평가 프레임워크(규칙 기반 패턴 매칭, 임베딩 기반 의미 유사성, 다운스트림 작업 성능)를 사용하여 세 개의 재귀적 텍스트 생성 세대에 걸쳐 성별 편향 역학을 조사한다. 세 가지 초기 편향 수준(0.1, 0.3, 0.6)과 네 가지 완화 전략에 대한 실험 결과, 단조로운 증폭이 아닌 평형 역학이 나타났다. 낮은 초기 편향은 모델의 내재적 편향 수준으로 증폭되고(+36%), 높은 초기 편향은 그 수준으로 감소했다(-26%). 완화 방법 중 성별을 바꾼 변형을 도입하는 대조 증강은 높은 임베딩 기반 편향 점수를 생성했음에도 불구하고 상당한 다운스트림 편향 감소를 달성했다 (낮은 초기 편향의 경우 98.8%, 평균 91%). 이 역설은 의미 유사성 메트릭이 행동적 공정성 결과와 다를 수 있음을 보여주며, 책임감 있는 합성 데이터 생성에 있어 다차원적 평가의 필요성을 강조한다.