본 연구는 강화 학습(Reinforcement Learning, RL)을 활용하여 자율적인 지구 관측(Earth Observation, EO) 임무를 수행하는 이종 위성 클러스터의 자원 최적화를 탐구한다. 두 개의 광학 위성과 하나의 SAR(Synthetic Aperture Radar) 위성이 저궤도에서 협력하여 지상 목표물을 포착하고 제한된 온보드 자원을 효율적으로 관리하는 설정을 제안한다. RL 및 다중 에이전트 강화 학습(Multi-Agent Reinforcement Learning, MARL)을 사용하여 EO 운영의 실시간성, 불확실성 및 분산 특성을 처리하며, 에너지 및 메모리 제약, 부분 관측, 다양한 페이로드 기능으로 인한 에이전트 이질성 등 주요 과제를 해결한다. Basilisk 및 BSK-RL 프레임워크를 기반으로 구축된 근사 현실 시뮬레이션 환경을 사용하여 MAPPO, HAPPO 및 HATRPO와 같은 최첨단 MARL 알고리즘의 성능과 안정성을 평가한다. 연구 결과는 MARL이 이미징 성능과 자원 활용을 균형 있게 유지하면서 비정상성 및 에이전트 간 보상 결합을 완화하며 이종 위성 간의 효과적인 조정을 가능하게 함을 보여준다.