Este artículo estudia la situación en el aprendizaje por refuerzo multiagente (MARL), donde los beneficios se derivan de las acciones ocultas de otros agentes (regalos ocultos). Específicamente, en un entorno de mundo grid donde los agentes usan llaves compartidas para abrir sus respectivas puertas y obtener recompensas, destacamos que el acto de colocar una llave para otro agente (regalo oculto) es esencial para las recompensas colectivas, pero este acto es invisible para otros agentes. Los resultados experimentales muestran que varios algoritmos MARL de vanguardia no logran obtener estas recompensas colectivas, e incluso algoritmos de gradiente de políticas independientes y sin modelo fallan sin información sobre las acciones ocultas. Sin embargo, demostramos que proporcionar a los agentes independientes información sobre su propio historial de comportamiento o agregar un término de compensación inspirado en enfoques de aprendizaje consciente puede mejorar la tasa de éxito en la obtención de recompensas colectivas.