본 논문은 확산 모델이 고품질 이미지 생성에 탁월하지만, NSFW 콘텐츠 생성 및 사회적 편향 문제로 실제 적용에 어려움을 겪는다는 점을 지적합니다. 기존의 독성 텍스트 필터링이나 미세 조정 방식은 성능 저하 및 유해 콘텐츠 생성 방지 실패 문제를 안고 있습니다. 이에 본 논문에서는 임베딩 공간에서 안전 영역을 제한하는 의미 방향 벡터를 자기 발견 방식으로 식별하는 새로운 방법을 제안합니다. 입력 텍스트 내 개별 단어 수정 없이 전체 텍스트 프롬프트를 안전 영역으로 유도하여 모델의 강건성을 높이고, LoRA를 활용하여 다른 의미에 대한 모델 성능 저하를 줄입니다. 또한 기존 방법과 통합하여 사회적 책임을 향상시킬 수 있습니다. 벤치마크 데이터셋 실험 결과, 기존 최첨단 기법보다 NSFW 콘텐츠 감소 및 사회적 편향 완화에 효과적임을 보였습니다.
시사점, 한계점
•
시사점:
◦
확산 모델의 NSFW 콘텐츠 생성 및 사회적 편향 문제 해결에 대한 새로운 접근 방식 제시.
◦
임베딩 공간 내 의미 방향 벡터를 이용한 효과적인 안전 영역 제한.
◦
LoRA 활용을 통한 모델 성능 저하 최소화.
◦
기존 방법과의 통합 가능성 제시.
◦
벤치마크 실험을 통해 성능 우수성 검증.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 검증 필요.
◦
다양한 유형의 유해 콘텐츠 및 사회적 편향에 대한 적용 가능성 및 한계 탐색 필요.
◦
LoRA를 사용했음에도 불구하고, 모델 성능에 미치는 영향에 대한 정량적인 분석이 부족할 수 있음.
◦
특정 데이터셋에 대한 성능이 뛰어나더라도, 다른 데이터셋으로 일반화되지 않을 가능성 존재.