Vídeo para legendas (voz para texto)

Gere legendas em SRT, VTT ou texto simples de qualquer vídeo ou áudio transcrevendo a fala localmente no seu navegador com o Whisper, sem enviar nada.

Carregando ferramenta…

Vídeo para legendas (voz para texto)Transforme a fala de um vídeo em legendas prontas para usar sem enviar nada. Arraste um MP4, MOV, WebM, MKV ou um arquivo de áudio e esta ferramenta extrai o som, executa o modelo de reconhecimento de voz Whisper da OpenAI dentro do seu próprio navegador e gera legendas com marcação de tempo em SRT, WebVTT ou texto simples que você pode editar e baixar. O áudio nunca sai do seu dispositivo — apenas os pesos do modelo de código aberto são baixados uma única vez de uma CDN pública — então suas gravações permanecem totalmente privadas.

O que é Vídeo para legendas (voz para texto)?

Um gerador de legendas gratuito e privado que transcreve a fala em legendas com marcação de tempo inteiramente no seu navegador. Ele usa o ffmpeg compilado para WebAssembly para extrair áudio a 16 kHz do seu vídeo e então executa o modelo multilíngue Whisper (via WebGPU quando disponível ou, caso contrário, a CPU) para reconhecer a fala e posicioná-la em uma linha do tempo. Criadores, editores, estudantes e equipes de acessibilidade o usam para legendar entrevistas, aulas, tutoriais e clipes para redes sociais em mais de 90 idiomas — incluindo coreano, japonês e chinês — e para exportar SRT para editores de vídeo, WebVTT para a web ou uma transcrição de texto limpa. Escolha o tamanho do modelo para equilibrar velocidade e precisão, detecte o idioma automaticamente ou defina-o, traduza a fala para o inglês se quiser e então corrija qualquer linha no editor integrado antes de baixar.

Como usar Vídeo para legendas (voz para texto)

  1. Arraste um vídeo ou arquivo de áudio para a área de upload, ou clique para escolher um. Nada é enviado: o arquivo é lido localmente.
  2. Escolha um modelo: Tiny para velocidade, Small para equilíbrio (recomendado) ou Turbo para a melhor precisão. Modelos maiores baixam mais dados na primeira vez.
  3. Deixe o idioma em Detecção automática ou selecione o idioma falado para melhorar a precisão. Ative Traduzir para o inglês se quiser legendas em inglês a partir de fala em outro idioma.
  4. Clique em Gerar legendas. Na primeira execução, o modelo é baixado uma vez (depois fica em cache); o áudio é extraído e transcrito no seu navegador.
  5. Escolha SRT, VTT ou Texto, edite qualquer linha para corrigir o texto, visualize as legendas sobre o vídeo e baixe o arquivo de legendas.

Exemplos

Legendar uma entrevista em coreano como arquivo SRT

Solte o clipe, mantenha o modelo em Small (ou Turbo para um coreano mais limpo), deixe o idioma em Detecção automática e exporte um .srt com marcação de tempo para carregar no seu editor de vídeo.

Criar legendas WebVTT para um vídeo na web

Gere as legendas, mude o formato para VTT e baixe um arquivo .vtt que você pode anexar a um <video> HTML5 com um elemento <track> para reprodução acessível.

Traduzir uma aula em japonês para legendas em inglês

Ative Traduzir para o inglês antes de gerar e o Whisper produzirá legendas em inglês sincronizadas com a fala original, ótimo para compartilhar palestras com um público maior.

Perguntas frequentes

Meu vídeo é enviado para um servidor?
Não. As duas etapas rodam 100% no seu navegador: o ffmpeg (WebAssembly) extrai o áudio e o Whisper o transcreve no seu dispositivo. Sua mídia nunca sai do seu computador. A única requisição de rede é o download único dos pesos do modelo de código aberto a partir de uma CDN pública.
Quais idiomas e formatos são suportados?
O Whisper é multilíngue e lida com mais de 90 idiomas, incluindo coreano, inglês, japonês, chinês, espanhol e outros, com detecção automática. Você pode exportar SRT, WebVTT ou uma transcrição em texto simples e, se quiser, traduzir fala em outros idiomas para legendas em inglês.
Qual modelo devo escolher?
O Small é o padrão recomendado e o mínimo prático para um bom resultado em coreano e em outros idiomas CJK. O Tiny é o mais rápido e leve, mas menos preciso; o Turbo (large-v3-turbo) é o mais preciso, mas baixa várias centenas de megabytes e funciona melhor com WebGPU. Todos os modelos são baixados uma vez e ficam em cache.
Por que a primeira execução é lenta?
Na primeira vez que você usa um modelo, os pesos dele são baixados uma única vez (dezenas de MB para Tiny/Small, mais para Turbo) e depois ficam em cache para a próxima vez. A transcrição em si é muito mais rápida em navegadores compatíveis com WebGPU; sem uma GPU, ela recorre à CPU e vídeos longos podem demorar um pouco.
As legendas são precisas o suficiente para publicar?
As legendas geradas automaticamente são um ótimo primeiro rascunho, mas não são perfeitas — podem entender nomes errados ou adicionar texto solto em trechos de música ou silêncio. Por isso, cada linha aqui é editável: revise e corrija a transcrição antes de baixá-la, especialmente para acessibilidade.
Existe um limite de tamanho de arquivo?
Tudo roda na memória do seu navegador, então arquivos muito grandes ou muito longos podem ficar lentos ou ficar sem memória. Arquivos com mais de cerca de 500 MB exibem um aviso e arquivos com mais de 2 GB são bloqueados. Para gravações longas, ajuda usar um clipe mais curto ou um modelo menor.

Ferramentas relacionadas