PianoVAM es un conjunto completo de datos de interpretación de piano que abarca múltiples modos (vídeo, audio, MIDI, puntos de referencia de las manos, notaciones del diapasón y metadatos enriquecidos). Se grabó con un piano Disklavier durante las sesiones de práctica diarias de pianistas aficionados, capturando datos de audio y MIDI junto con vídeos sincronizados de vista superior en diversos entornos de interpretación reales. Los puntos de referencia de las manos y las notaciones del diapasón se extrajeron mediante un modelo de estimación de la postura de la mano preentrenado y un algoritmo semiautomático de notación del diapasón. Analizamos los retos encontrados durante la recopilación y alineación de datos en varios modos, así como un método de notación del diapasón basado en puntos de referencia de las manos extraídos de vídeo. Presentamos resultados de referencia para la transcripción de piano solo de audio y audiovisual utilizando el conjunto de datos PianoVAM y analizamos otras posibles aplicaciones.