Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

Created by
  • Haebom

저자

Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin

개요

대규모 검색 데이터셋을 사용하여 강력한 검색 및 재순위 지정 모델을 학습하는 것이 일반적입니다. 하지만 일부 데이터셋은 모델 효과에 부정적인 영향을 미칠 수 있습니다. 본 논문에서는 BGE 컬렉션에서 15개 데이터셋 중 8개를 제거함으로써 학습 데이터셋 크기를 2.35배 줄이고 BEIR에서 nDCG@10을 1.0 포인트 향상시킨 사실을 발견했습니다. 이를 바탕으로, 특히 관련 패시지를 잘못된 것으로 분류하는 "가짜 음성"에 초점을 맞춰 학습 데이터 품질에 대한 심층적인 조사를 수행했습니다. 본 논문은 캐스케이딩 LLM 프롬프트를 사용하여 어려운 음성을 식별하고 재분류하는 간단하고 비용 효율적인 방법을 제안합니다. 실험 결과, 가짜 음성을 진짜 양성으로 재분류하면 BEIR에서 E5(기본) 및 Qwen2.5-7B 검색 모델의 nDCG@10이 0.71.4 향상되고, 제로샷 AIR-Bench 평가에서 1.71.8 향상됩니다. BEIR에서 Qwen2.5-3B와 같은 재분류된 데이터에 대해 미세 조정된 재순위 지정기에서도 유사한 성과 향상이 관찰되었습니다. GPT-4o의 판단이 GPT-4o-mini보다 사람의 판단과 더 높은 일치율을 보이는 점에서 캐스케이딩 설계의 신뢰성을 확인했습니다.

시사점, 한계점

시사점:
저품질 데이터는 검색 및 재순위 지정 모델의 성능을 저하시킬 수 있음을 보여줍니다.
캐스케이딩 LLM 프롬프트를 이용한 가짜 음성 재분류는 모델 성능을 효과적으로 향상시킬 수 있는 비용 효율적인 방법임을 제시합니다.
GPT-4o와 같은 강력한 LLM을 활용하여 데이터 품질을 향상시킬 수 있습니다.
검색 및 재순위 지정 모델의 성능 향상에 대한 실질적인 증거를 제시합니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가 연구가 필요합니다.
다른 유형의 데이터셋이나 모델에 대한 추가적인 실험이 필요합니다.
LLM 프롬프트 엔지니어링에 대한 의존도가 높을 수 있습니다.
GPT-4o와 같은 고성능 LLM 사용으로 인한 비용 문제가 있을 수 있습니다.
👍