본 논문은 Retrieval-Augmented Large Language Models (RALMs)의 성능 불일치 현상에 대해 연구합니다. RALMs는 사실성 측면에서 우수하지만, 항상 retrieval-free Language Models (LMs)보다 성능이 뛰어나지는 않습니다. 이러한 불일치는 RALMs 내부의 degeneration 현상 때문이며, 본 논문에서는 이를 네 가지 범주로 분류하고 분석합니다. 분석 결과, 지식 소스의 차이와 reader model의 예측 불가능한 오류가 성능 불일치의 주요 원인임을 밝힙니다. 이를 해결하기 위해, 본 논문은 다양한 지식 소스에서 적응적으로 정보를 검색하고 reader 오류를 줄이는 Ensemble of Retrievers (EoR) 프레임워크를 제안합니다. Open Domain Question Answering 실험을 통해 EoR이 기존 RALMs보다 성능이 훨씬 향상됨을 보여줍니다.