본 논문은 장문맥락 질의응답(Long-context Question-Answering) 능력 평가를 위한 기존의 Needle In A Haystack (NIAH) 과제의 한계를 지적하고, 이를 개선한 Multiple Needles In A Haystack Reasoning (MNIAH-R) 과제를 다룬다. MNIAH-R 과제는 다단계 추론을 위한 여러 지원 문서(바늘들)를 방해 요소가 포함된 맥락(건초더미)에 포함시킨다. 하지만 기존 접근 방식은 모델이 내부 지식으로부터 직접 답을 제공하는 문제와 맥락 길이 증가에 따른 정확도 저하 문제를 해결하지 못한다. 본 논문에서는 직접 답변 질문을 걸러내는 방식으로 기억 기반 응답 문제를 해결하고, 입력 길이 증가에 따른 성능 저하는 사고 과정 길이의 감소 때문임을 밝힌다. 이를 바탕으로 사고 과정을 검색 및 추론 단계로 분해하고, 다회차 확장을 위한 반성 메커니즘을 도입한다. 또한 생성된 반복적 사고 과정을 이용하여 모델을 훈련하여 성능 저하를 완화한다. 마지막으로 수학적 추론 시나리오에서 이 검색-반성 기능의 적용을 보여주며, AIME2024에서 GPT-4의 성능을 향상시킨다.