본 논문은 제한된 피드백을 가진 온라인 최적화 문제인 밴딧 최적화 문제에 대해 기존의 명칭이 다중 팔 밴딧(MAB) 문제와의 연관성이 부족하다는 점을 지적하며, 기존 밴딧 최적화 문제를 기능적 다중 팔 밴딧 문제(FMAB)와 최적 함수 식별 문제로 재정의합니다. 각 팔이 알려지지 않은 블랙박스 함수를 나타내는 이 문제들은 경쟁적 LLM 훈련과 같은 실제 문제를 모델링하는 데 적합합니다. 논문에서는 비선형 최적화 알고리즘의 수렴 속도를 기반으로 UCB-type 알고리즘인 F-LCB 알고리즘을 제안하고, 해당 알고리즘의 후회 상한을 제시하며, 성능을 보여주는 수치 실험 결과를 포함합니다.