본 논문은 대규모 언어 모델(LLM)의 다중 정답 선택 문제 해결 능력을 평가하기 위한 새로운 벤치마크인 SATA-BENCH를 제시합니다. 기존의 단일 정답 문제 중심 평가에서 벗어나, 다양한 분야(독해, 법률, 생의학 등)의 '모두 선택' 유형 문제를 다룹니다. 27개의 오픈소스 및 독점 모델을 평가한 결과, 최고 성능 모델조차도 정확도가 41.8%에 그치는 등 LLM의 다중 정답 식별 능력의 부족을 드러냅니다. 이러한 한계는 선택 편향(특정 선택지를 선호하는 경향)과 개수 편향(정답 개수 예측 실패)으로 인한 것임을 밝히고, 이를 해결하기 위해 토큰 편향 제거와 적응적 임계값 설정을 결합한 새로운 디코딩 전략인 Choice Funnel을 제안합니다. Choice Funnel은 기존 방식보다 정확도를 최대 29% 향상시키고 추론 비용을 64% 이상 절감합니다. 논문은 SATA-BENCH와 Choice Funnel을 공개하여 실제 다중 정답 응용 분야에서 강력한 의사결정을 위한 LLM 개발을 촉진하고자 합니다.