Vídeo a subtítulos (voz a texto)

Genera subtítulos en SRT, VTT o texto plano a partir de cualquier vídeo o audio transcribiendo la voz de forma local en tu navegador con Whisper, sin subir nada.

Cargando herramienta…

Vídeo a subtítulos (voz a texto)Convierte la voz de un vídeo en subtítulos listos para usar sin subir nada. Arrastra un MP4, MOV, WebM, MKV o un archivo de audio y esta herramienta extrae el sonido, ejecuta el modelo de reconocimiento de voz Whisper de OpenAI dentro de tu propio navegador y genera subtítulos con marcas de tiempo en SRT, WebVTT o texto plano que puedes editar y descargar. El audio nunca sale de tu dispositivo — solo se descargan una vez los pesos del modelo de código abierto desde una CDN pública — así que tus grabaciones quedan totalmente privadas.

¿Qué es Vídeo a subtítulos (voz a texto)?

Un generador de subtítulos gratuito y privado que transcribe la voz en subtítulos con marcas de tiempo por completo dentro de tu navegador. Usa ffmpeg compilado a WebAssembly para extraer audio a 16 kHz de tu vídeo y luego ejecuta el modelo multilingüe Whisper (mediante WebGPU cuando está disponible o, si no, la CPU) para reconocer la voz y situarla en una línea de tiempo. Creadores, editores, estudiantes y equipos de accesibilidad lo usan para subtitular entrevistas, clases, tutoriales y clips para redes sociales en más de 90 idiomas — incluidos el coreano, el japonés y el chino — y para exportar SRT para editores de vídeo, WebVTT para la web o una transcripción de texto limpia. Elige el tamaño del modelo para equilibrar velocidad y precisión, detecta el idioma automáticamente o indícalo, traduce la voz al inglés si quieres y luego corrige cualquier línea en el editor integrado antes de descargar.

Cómo usar Vídeo a subtítulos (voz a texto)

  1. Arrastra un vídeo o un archivo de audio a la zona de carga, o haz clic para elegir uno. No se sube nada: el archivo se lee de forma local.
  2. Elige un modelo: Tiny para más velocidad, Small para un equilibrio (recomendado) o Turbo para la mejor precisión. Los modelos más grandes descargan más datos la primera vez.
  3. Deja el idioma en Detección automática o selecciona el idioma hablado para mejorar la precisión. Activa Traducir al inglés si quieres subtítulos en inglés a partir de voz en otro idioma.
  4. Pulsa Generar subtítulos. En la primera ejecución el modelo se descarga una vez (luego queda en caché); el audio se extrae y se transcribe en tu navegador.
  5. Elige SRT, VTT o Texto, edita cualquier línea para corregir el texto, previsualiza los subtítulos sobre el vídeo y descarga el archivo de subtítulos.

Ejemplos

Subtitular una entrevista en coreano como archivo SRT

Suelta el clip, mantén el modelo en Small (o Turbo para un coreano más limpio), deja el idioma en Detección automática y exporta un .srt con marcas de tiempo para cargarlo en tu editor de vídeo.

Crear subtítulos WebVTT para un vídeo web

Genera los subtítulos, cambia el formato a VTT y descarga un archivo .vtt que puedes adjuntar a un <video> de HTML5 con un elemento <track> para una reproducción accesible.

Traducir una clase en japonés a subtítulos en inglés

Activa Traducir al inglés antes de generar y Whisper producirá subtítulos en inglés sincronizados con la voz original, ideal para compartir charlas con un público más amplio.

Preguntas frecuentes

¿Se sube mi vídeo a un servidor?
No. Ambos pasos se ejecutan al 100 % en tu navegador: ffmpeg (WebAssembly) extrae el audio y Whisper lo transcribe en tu dispositivo. Tu contenido nunca sale de tu ordenador. La única petición de red es una descarga única de los pesos del modelo de código abierto desde una CDN pública.
¿Qué idiomas y formatos se admiten?
Whisper es multilingüe y maneja más de 90 idiomas, incluidos el coreano, el inglés, el japonés, el chino, el español y muchos más, con detección automática. Puedes exportar SRT, WebVTT o una transcripción de texto plano y, si quieres, traducir voz en otros idiomas a subtítulos en inglés.
¿Qué modelo debería elegir?
Small es el valor recomendado por defecto y el mínimo práctico para un buen resultado en coreano y otros idiomas CJK. Tiny es el más rápido y ligero, pero menos preciso; Turbo (large-v3-turbo) es el más preciso, pero descarga varios cientos de megabytes y funciona mejor con WebGPU. Todos los modelos se descargan una vez y quedan en caché.
¿Por qué es lenta la primera ejecución?
La primera vez que usas un modelo, sus pesos se descargan una sola vez (decenas de MB para Tiny/Small, más para Turbo) y luego quedan en caché para la próxima vez. La transcripción en sí es mucho más rápida en navegadores compatibles con WebGPU; sin GPU recurre a la CPU y los vídeos largos pueden tardar un rato.
¿Los subtítulos son lo bastante precisos para publicarlos?
Los subtítulos generados automáticamente son un buen primer borrador, pero no son perfectos: pueden confundir nombres o añadir texto suelto en tramos de música o silencio. Por eso aquí cada línea es editable: revisa y corrige la transcripción antes de descargarla, sobre todo para accesibilidad.
¿Hay un límite de tamaño de archivo?
Todo se ejecuta en la memoria de tu navegador, así que los archivos muy grandes o muy largos pueden ir lentos o quedarse sin memoria. Los archivos de más de unos 500 MB muestran un aviso y los de más de 2 GB se bloquean. Para grabaciones largas, ayuda usar un clip más corto o un modelo más pequeño.

Herramientas relacionadas