En este artículo, estudiamos dos modelos de reconocimiento automático de voz (ASR) de vanguardia, Whisper (Small & Large-V2) de OpenAI y Wav2Vec-BERT de Facebook, para evaluar su rendimiento en el reconocimiento de voz en bengalí, un idioma con bajos recursos. Utilizando dos conjuntos de datos públicos, Mozilla Common Voice-17 y OpenSLR, comparamos el rendimiento de los modelos en términos de tasa de error de palabras (WER), tasa de error de caracteres (CER), tiempo de entrenamiento y eficiencia computacional mediante un ajuste fino sistemático y la optimización de hiperparámetros, incluyendo la tasa de aprendizaje, las épocas y la selección de puntos de control del modelo. Como resultado, confirmamos que el modelo Wav2Vec-BERT supera al modelo Whisper en todas las métricas clave de evaluación y requiere menos recursos computacionales.