본 논문은 전체 시스템 성능을 최대화하면서 에이전트 간의 공정한 결과를 보장하는 것을 목표로 하는 다중 에이전트 다중 암드 밴딧(MA-MAB) 프레임워크를 제안합니다. 암 보상에 대한 제한된 정보 하에서 의사 결정을 내리는 것이 주요 과제입니다. 이 문제를 해결하기 위해, 할당 전에 선택된 암에 대한 정보를 전략적으로 수집하는 새로운 프로빙 프레임워크를 도입했습니다. 오프라인 설정에서는, 보상 분포가 알려진 경우, 서브모듈러 속성을 활용하여 증명 가능한 성능 바운드를 가진 탐욕적 프로빙 알고리즘을 설계했습니다. 더 복잡한 온라인 설정에서는, 공정성을 유지하면서 서브리니어 후회를 달성하는 알고리즘을 개발했습니다. 합성 및 실제 데이터 세트에 대한 광범위한 실험을 통해 본 접근 방식이 기준선 방법보다 우수하여 더 나은 공정성과 효율성을 달성함을 보여주었습니다.