PianoVAM은 다양한 모드(비디오, 오디오, MIDI, 손 랜드마크, 지판 표기, 풍부한 메타데이터)를 포함하는 포괄적인 피아노 연주 데이터셋입니다. 아마추어 피아니스트들의 일상 연습 세션을 Disklavier 피아노를 사용하여 녹음되었으며, 실제 다양한 연주 환경에서 동기화된 상단 시점 비디오와 함께 오디오 및 MIDI 데이터를 캡처했습니다. 사전 훈련된 손 자세 추정 모델과 반자동 지판 표기 알고리즘을 사용하여 손 랜드마크와 지판 표기를 추출했습니다. 데이터 수집 및 다양한 모드 간의 정렬 과정에서 발생한 어려움과 비디오에서 추출된 손 랜드마크를 기반으로 한 지판 표기 방법을 논의하고, PianoVAM 데이터셋을 사용한 오디오 전용 및 시청각 피아노 트랜스크립션에 대한 벤치마킹 결과를 제시하며 추가적인 잠재적 응용 분야를 논의합니다.