본 논문은 다수 에이전트 다중 팔 밴딧(MA-MAB) 프레임워크를 제안하여 전체 시스템 성능을 극대화하는 동시에 에이전트 간 공정한 결과를 보장하는 것을 목표로 합니다. 제한된 팔 보상 정보 하에서 의사결정을 하는 것이 주요 과제이며, 이를 해결하기 위해 선택된 팔에 대한 정보를 전략적으로 수집하는 새로운 프로빙 프레임워크를 도입합니다. 보상 분포가 알려진 오프라인 환경에서는 부분 모듈 특성을 활용하여 성능 보장이 가능한 탐욕적인 프로빙 알고리즘을 설계합니다. 더 복잡한 온라인 환경에서는 공정성을 유지하면서 준선형 후회를 달성하는 알고리즘을 개발합니다. 합성 및 실제 데이터셋에 대한 광범위한 실험을 통해 제안된 방법이 기준 방법보다 우수한 공정성과 효율성을 달성함을 보여줍니다.