Question 1

Meu vídeo é enviado para um servidor?

Accepted Answer

Não. As duas etapas rodam 100% no seu navegador: o ffmpeg (WebAssembly) extrai o áudio e o Whisper o transcreve no seu dispositivo. Sua mídia nunca sai do seu computador. A única requisição de rede é o download único dos pesos do modelo de código aberto a partir de uma CDN pública.

Question 2

Quais idiomas e formatos são suportados?

Accepted Answer

O Whisper é multilíngue e lida com mais de 90 idiomas, incluindo coreano, inglês, japonês, chinês, espanhol e outros, com detecção automática. Você pode exportar SRT, WebVTT ou uma transcrição em texto simples e, se quiser, traduzir fala em outros idiomas para legendas em inglês.

Question 3

Qual modelo devo escolher?

Accepted Answer

O Small é o padrão recomendado e o mínimo prático para um bom resultado em coreano e em outros idiomas CJK. O Tiny é o mais rápido e leve, mas menos preciso; o Turbo (large-v3-turbo) é o mais preciso, mas baixa várias centenas de megabytes e funciona melhor com WebGPU. Todos os modelos são baixados uma vez e ficam em cache.

Question 4

Por que a primeira execução é lenta?

Accepted Answer

Na primeira vez que você usa um modelo, os pesos dele são baixados uma única vez (dezenas de MB para Tiny/Small, mais para Turbo) e depois ficam em cache para a próxima vez. A transcrição em si é muito mais rápida em navegadores compatíveis com WebGPU; sem uma GPU, ela recorre à CPU e vídeos longos podem demorar um pouco.

Question 5

As legendas são precisas o suficiente para publicar?

Accepted Answer

As legendas geradas automaticamente são um ótimo primeiro rascunho, mas não são perfeitas — podem entender nomes errados ou adicionar texto solto em trechos de música ou silêncio. Por isso, cada linha aqui é editável: revise e corrija a transcrição antes de baixá-la, especialmente para acessibilidade.

Question 6

Existe um limite de tamanho de arquivo?

Accepted Answer

Tudo roda na memória do seu navegador, então arquivos muito grandes ou muito longos podem ficar lentos ou ficar sem memória. Arquivos com mais de cerca de 500 MB exibem um aviso e arquivos com mais de 2 GB são bloqueados. Para gravações longas, ajuda usar um clipe mais curto ou um modelo menor.

Vídeo para legendas (voz para texto)

O que é Vídeo para legendas (voz para texto)?

Como usar Vídeo para legendas (voz para texto)

Exemplos

Legendar uma entrevista em coreano como arquivo SRT

Criar legendas WebVTT para um vídeo na web

Traduzir uma aula em japonês para legendas em inglês

Perguntas frequentes

Ferramentas relacionadas

Conversor de formato de imagem

Excel/CSV para JSON

Visualizador de EXIF e removedor de metadados

Gerador de favicon