Out-of-Distribution Detection using Synthetic Data Generation
Created by
Haebom
저자
Momin Abbas, Muneeza Azmat, Raya Horesh, Mikhail Yurochkin
개요
LLM의 생성 능력을 활용하여 고품질의 합성 OOD 프록시를 생성하는 방법을 제시하여 외부 OOD 데이터 소스에 대한 의존성을 제거합니다. 독성 감지 및 감성 분류와 같은 고전적인 텍스트 분류 작업뿐만 아니라 RLHF를 위한 보상 모델 훈련 및 잘못 정렬된 생성 감지와 같은 LLM 개발 및 배포에 사용되는 분류 작업에 대한 방법의 효과를 연구합니다.
시사점, 한계점
•
LLM을 사용하여 OOD 감지를 위한 합성 데이터를 생성하는 새로운 방법 제시
•
독성 감지, 감성 분류, RLHF 보상 모델 훈련, 잘못 정렬된 생성 감지와 같은 다양한 작업에서 우수한 성능을 보임
•
InD-OOD 데이터 쌍 9개 및 다양한 모델 크기에 대한 실험을 통해 방법의 효과를 입증