CameraBench es un conjunto de datos y un punto de referencia a gran escala diseñado para evaluar y mejorar la comprensión del movimiento de la cámara. Consta de aproximadamente 3000 vídeos de internet diversos, anotados por expertos mediante un riguroso proceso de control de calidad de varios pasos. En colaboración con cinematógrafos, proponemos una taxonomía de primitivas de movimiento de cámara. Por ejemplo, algunas acciones, como el seguimiento, requieren comprender el contenido de la escena, como los sujetos en movimiento. Estudios a gran escala realizados con personas cuantifican el rendimiento de la anotación humana, lo que demuestra que la experiencia en el dominio y el entrenamiento basado en tutoriales pueden mejorar significativamente la precisión. Por ejemplo, los usuarios principiantes pueden confundir el zoom (un cambio de parámetro intrínseco) con el avance (un cambio de parámetro extrínseco), pero el entrenamiento les permite distinguir entre ambos. Utilizando CameraBench para evaluar la Estructura a partir del Movimiento (SfM) y los Modelos de Lenguaje de Vídeo (VLM), observamos que los modelos SfM tienen dificultades para capturar primitivas semánticas que dependen del contenido de la escena, mientras que los VLM tienen dificultades para capturar primitivas geométricas que requieren una estimación precisa de la trayectoria. A continuación, perfeccionamos el VLM generativo en CameraBench para lograr lo mejor de ambos mundos, demostrando aplicaciones como subtítulos con aumento de movimiento, respuestas a preguntas en video y búsqueda de video a texto. Con esta taxonomía, puntos de referencia y tutoriales, anticipamos los esfuerzos futuros hacia el objetivo final de comprender el movimiento de la cámara en todos los videos.