본 논문은 다항 로지스틱 밴딧 문제를 연구하며, 학습자가 여러 가능한 결과로부터 확률적 피드백을 기반으로 예상 보상을 최대화하기 위해 행동을 선택하여 환경과 상호 작용하는 변형을 다룹니다. 이진 설정에서 로지스틱 모델의 비선형성 영향을 이해하는 데 초점을 맞춘 기존 연구를 확장하여, \kappa_* 를 다항 설정으로 확장하고 문제의 비선형성을 활용하는 효율적인 알고리즘을 제안합니다. 제안된 알고리즘은 \smash{\widetilde{\mathcal{O}}( R d \sqrt{{KT}/{\kappa_*}})} 의 문제 종속 후회 경계를 제공하며, 이는 기존의 \smash{\widetilde{\mathcal{O}}( RdK \sqrt{T} )} 보다 개선된 결과입니다. 또한, \smash{ \Omega(Rd\sqrt{KT/\kappa_*})} 의 하한을 제시하여 알고리즘이 최소 최대(minimax) 최적임을 증명합니다.