대규모 언어 모델(LLM)에서 여러 출력을 샘플링하고 가장 빈번한(자기 일관성) 또는 가장 높은 점수를 받은(Best-of-N) 후보를 선택하는 것은 이산적인 최종 답변이 있는 작업에서 더 높은 정확도를 달성하기 위한 인기 있는 접근 방식입니다. Best-of-N(BoN)은 가장 높은 보상을 받는 출력을 선택하며, 완벽한 보상으로 거의 완벽한 정확도를 달성하는 경우가 많습니다. 그러나 보상 모델에서 얻은 불완전한 보상으로는 BoN이 올바른 답변을 안정적으로 찾지 못하고 성능이 급격히 저하됩니다. 우리는 BoN의 출력 분포를 고려하고, 불완전한 보상 하에서 정답이 일반적으로 1에 가까운 확률을 갖지 않더라도, 종종 가장 가능성이 높은 결과라는 점을 강조합니다. 이러한 아이디어를 바탕으로, 부트스트래핑을 통해 BoN의 출력 분포를 추정하고 그 모드를 선택하는 새로운 선택 메커니즘인 Majority-of-the-Bests(MoB)를 제안합니다. 다섯 개의 벤치마크, 세 개의 다른 기본 LLM, 두 개의 보상 모델에 대한 실험 결과는 30개의 설정 중 25개에서 BoN보다 일관된 개선을 보여줍니다. 우리는 또한 부트스트래핑의 일관성에 대한 이론적 결과를 제공합니다. MoB는 BoN 및 자기 일관성에 대한 간단하면서도 강력한 대안으로 작용하며, 더 나아가 더 미묘한 선택 메커니즘에 대한 추가 연구를 동기를 부여합니다.