Beyond Surface-Level Similarity: Hierarchical Contamination Detection for Synthetic Training Data in Foundation Models
Created by
Haebom
Category
Empty
저자
Sushant Mehta
개요
본 논문은 파운데이션 모델 학습에 필수적인 합성 데이터 사용과 관련된 벤치마크 오염 문제를 다룹니다. 기존의 토큰 수준 중복 감지 방법의 한계를 지적하며, 의미적 수준의 오염을 탐지하는 새로운 계층적 프레임워크를 제안합니다. 이 프레임워크는 토큰, 의미, 추론 패턴, 성능 급락 등 4단계에서 오염을 감지하며, MMLU, GSM8K, HumanEval 벤치마크에 대한 실험을 통해 기존 방법보다 향상된 성능을 보임을 입증합니다.
시사점, 한계점
•
시사점:
◦
합성 데이터 기반 파운데이션 모델 학습 시 벤치마크 오염 문제를 해결하기 위한 실질적인 프레임워크 제시