Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PianoVAM: Un conjunto de datos multimodal de interpretación de piano

Created by
  • Haebom

Autor

Yonghyun Kim, Junhyung Park, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam

Describir

PianoVAM es un conjunto completo de datos de interpretación de piano que abarca múltiples modos (vídeo, audio, MIDI, puntos de referencia de las manos, notaciones del diapasón y metadatos enriquecidos). Se grabó con un piano Disklavier durante las sesiones de práctica diarias de pianistas aficionados, capturando datos de audio y MIDI junto con vídeos sincronizados de vista superior en diversos entornos de interpretación reales. Los puntos de referencia de las manos y las notaciones del diapasón se extrajeron mediante un modelo de estimación de la postura de la mano preentrenado y un algoritmo semiautomático de notación del diapasón. Analizamos los retos encontrados durante la recopilación y alineación de datos en varios modos, así como un método de notación del diapasón basado en puntos de referencia de las manos extraídos de vídeo. Presentamos resultados de referencia para la transcripción de piano solo de audio y audiovisual utilizando el conjunto de datos PianoVAM y analizamos otras posibles aplicaciones.

Takeaways, Limitations

Takeaways:
Contribuir al avance de la investigación en el campo de MIR proporcionando un conjunto de datos completo de interpretación de piano que contiene datos de varios modos.
Es posible realizar investigaciones realistas con un conjunto de datos que refleje el entorno de rendimiento real.
Proporciona resultados de evaluación comparativa para la transcripción de piano audiovisual y de solo audio.
Se presenta un nuevo método de notación de diapasón basado en puntos de referencia de la mano.
Limitations:
El conjunto de datos se limita a datos de interpretación de pianistas aficionados.
Existe la posibilidad de errores debido al uso de un algoritmo de notación de diapasón semiautomático.
Se observaron dificultades en la recopilación de datos y la alineación entre modos. El caso específico Limitations requiere mayor explicación.
👍