# ReasonIR: Training Retrievers for Reasoning Tasks

### 저자

Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer

### 개요

ReasonIR-8B는 일반적인 추론 작업을 위해 특별히 훈련된 최초의 검색 시스템입니다. 기존 검색 시스템은 추론 작업에서 제한적인 성능 향상만 보였는데, 이는 기존 훈련 데이터셋이 문서에 직접적으로 답변하는 짧은 사실적 질문에 초점을 맞추었기 때문입니다. 본 논문에서는 각 문서에 대해 어렵고 관련성 있는 질문과 그럴듯하지만 궁극적으로 도움이 되지 않는 어려운 부정적인 예시를 생성하는 합성 데이터 생성 파이프라인을 개발했습니다. 합성 데이터와 기존 공개 데이터를 혼합하여 훈련한 ReasonIR-8B는 널리 사용되는 추론 집약적 정보 검색(IR) 벤치마크인 BRIGHT에서 reranker 없이 29.9 nDCG@10, reranker를 사용하여 36.9 nDCG@10의 새로운 최첨단 성능을 달성했습니다. RAG 작업에 적용하면 ReasonIR-8B는 폐쇄형 기준선 대비 MMLU와 GPQA 성능을 각각 6.4%와 22.6% 향상시켜 다른 검색 시스템 및 검색 엔진을 능가합니다. 또한 ReasonIR-8B는 테스트 시간 계산을 더 효율적으로 사용합니다. BRIGHT에서 ReasonIR-8B의 성능은 더 길고 정보가 풍부한 재작성된 질문을 사용할수록 지속적으로 향상되며, LLM reranker와 결합했을 때도 다른 검색 시스템보다 우수한 성능을 유지합니다. 본 논문의 훈련 방식은 일반적이며 향후 LLM에 쉽게 확장할 수 있습니다. 이를 위해 코드, 데이터 및 모델을 오픈소스로 공개합니다.

### 시사점, 한계점

- **시사점:**

    - 일반적인 추론 작업을 위한 최초의 특화된 검색 시스템을 제시합니다.

    - 합성 데이터 생성 파이프라인을 통해 기존 검색 시스템의 한계를 극복하고 성능을 향상시켰습니다.

    - BRIGHT 벤치마크에서 reranker를 사용하지 않고도, 그리고 reranker를 사용하여도 최첨단 성능을 달성했습니다.

    - RAG 작업에서도 기존 방식보다 우수한 성능을 보였습니다.

    - 테스트 시간 계산을 효율적으로 사용합니다.

    - 코드, 데이터 및 모델을 오픈소스로 공개하여 향후 연구에 기여합니다.

- **한계점:**

    - 합성 데이터 생성 파이프라인의 일반화 가능성에 대한 추가적인 검증이 필요할 수 있습니다.

    - 특정 벤치마크에 대한 성능 향상이 다른 벤치마크에서도 동일하게 적용될지는 추가 연구가 필요합니다.

    - 현재 성능은 특정 데이터셋과 벤치마크에 기반하므로,  다양한 상황에서의 일반화 성능은 추가 연구를 통해 검증되어야 합니다.

[PDF 보기](https://arxiv.org/pdf/2504.20595)

![https://i.imgur.com/HiFpvG8.jpeg](https://i.imgur.com/HiFpvG8.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).