Question 1

¿Se sube mi vídeo a un servidor?

Accepted Answer

No. Ambos pasos se ejecutan al 100 % en tu navegador: ffmpeg (WebAssembly) extrae el audio y Whisper lo transcribe en tu dispositivo. Tu contenido nunca sale de tu ordenador. La única petición de red es una descarga única de los pesos del modelo de código abierto desde una CDN pública.

Question 2

¿Qué idiomas y formatos se admiten?

Accepted Answer

Whisper es multilingüe y maneja más de 90 idiomas, incluidos el coreano, el inglés, el japonés, el chino, el español y muchos más, con detección automática. Puedes exportar SRT, WebVTT o una transcripción de texto plano y, si quieres, traducir voz en otros idiomas a subtítulos en inglés.

Question 3

¿Qué modelo debería elegir?

Accepted Answer

Small es el valor recomendado por defecto y el mínimo práctico para un buen resultado en coreano y otros idiomas CJK. Tiny es el más rápido y ligero, pero menos preciso; Turbo (large-v3-turbo) es el más preciso, pero descarga varios cientos de megabytes y funciona mejor con WebGPU. Todos los modelos se descargan una vez y quedan en caché.

Question 4

¿Por qué es lenta la primera ejecución?

Accepted Answer

La primera vez que usas un modelo, sus pesos se descargan una sola vez (decenas de MB para Tiny/Small, más para Turbo) y luego quedan en caché para la próxima vez. La transcripción en sí es mucho más rápida en navegadores compatibles con WebGPU; sin GPU recurre a la CPU y los vídeos largos pueden tardar un rato.

Question 5

¿Los subtítulos son lo bastante precisos para publicarlos?

Accepted Answer

Los subtítulos generados automáticamente son un buen primer borrador, pero no son perfectos: pueden confundir nombres o añadir texto suelto en tramos de música o silencio. Por eso aquí cada línea es editable: revisa y corrige la transcripción antes de descargarla, sobre todo para accesibilidad.

Question 6

¿Hay un límite de tamaño de archivo?

Accepted Answer

Todo se ejecuta en la memoria de tu navegador, así que los archivos muy grandes o muy largos pueden ir lentos o quedarse sin memoria. Los archivos de más de unos 500 MB muestran un aviso y los de más de 2 GB se bloquean. Para grabaciones largas, ayuda usar un clip más corto o un modelo más pequeño.

Vídeo a subtítulos (voz a texto)

¿Qué es Vídeo a subtítulos (voz a texto)?

Cómo usar Vídeo a subtítulos (voz a texto)

Ejemplos

Subtitular una entrevista en coreano como archivo SRT

Crear subtítulos WebVTT para un vídeo web

Traducir una clase en japonés a subtítulos en inglés

Preguntas frecuentes

Herramientas relacionadas

Conversor de formatos de imagen

Excel/CSV a JSON

Visor de EXIF y eliminador de metadatos

Generador de favicons