Da video a sottotitoli (da voce a testo)

Genera sottotitoli in SRT, VTT o testo semplice da qualsiasi video o audio trascrivendo il parlato localmente nel browser con Whisper, senza caricare nulla.

Caricamento strumento…

Da video a sottotitoli (da voce a testo)Trasforma il parlato di un video in sottotitoli pronti all'uso senza caricare nulla. Trascina un MP4, MOV, WebM, MKV o un file audio e questo strumento estrae l'audio, esegue il modello di riconoscimento vocale Whisper di OpenAI direttamente nel tuo browser e genera sottotitoli con marcatori temporali in SRT, WebVTT o testo semplice che puoi modificare e scaricare. L'audio non lascia mai il tuo dispositivo — vengono scaricati una sola volta solo i pesi del modello open source da una CDN pubblica — così le tue registrazioni restano completamente private.

Cos'è Da video a sottotitoli (da voce a testo)?

Un generatore di sottotitoli gratuito e privato che trascrive il parlato in sottotitoli con marcatori temporali interamente nel tuo browser. Usa ffmpeg compilato in WebAssembly per estrarre audio a 16 kHz dal video, quindi esegue il modello multilingue Whisper (tramite WebGPU quando disponibile, altrimenti la CPU) per riconoscere il parlato e collocarlo su una linea temporale. Creator, montatori, studenti e team di accessibilità lo usano per sottotitolare interviste, lezioni, tutorial e clip per i social in oltre 90 lingue — tra cui coreano, giapponese e cinese — e per esportare SRT per i software di montaggio, WebVTT per il web o una trascrizione di testo pulita. Scegli la dimensione del modello per bilanciare velocità e precisione, rileva la lingua automaticamente o impostala, traduci il parlato in inglese se vuoi e poi correggi qualsiasi riga nell'editor integrato prima di scaricare.

Come usare Da video a sottotitoli (da voce a testo)

  1. Trascina un video o un file audio nell'area di caricamento, oppure fai clic per sceglierne uno. Non viene caricato nulla: il file viene letto in locale.
  2. Scegli un modello: Tiny per la velocità, Small per un buon equilibrio (consigliato) o Turbo per la massima precisione. I modelli più grandi scaricano più dati la prima volta.
  3. Lascia la lingua su Rilevamento automatico oppure seleziona la lingua parlata per migliorare la precisione. Attiva Traduci in inglese se vuoi sottotitoli in inglese da un parlato in un'altra lingua.
  4. Premi Genera sottotitoli. Alla prima esecuzione il modello viene scaricato una volta (poi resta in cache); l'audio viene estratto e trascritto nel tuo browser.
  5. Scegli SRT, VTT o Testo, modifica qualsiasi riga per correggere il testo, visualizza l'anteprima dei sottotitoli sul video e scarica il file dei sottotitoli.

Esempi

Sottotitolare un'intervista in coreano come file SRT

Rilascia la clip, tieni il modello su Small (o Turbo per un coreano più pulito), lascia la lingua su Rilevamento automatico ed esporta un .srt con marcatori temporali da caricare nel tuo software di montaggio.

Creare sottotitoli WebVTT per un video sul web

Genera i sottotitoli, cambia il formato in VTT e scarica un file .vtt da allegare a un <video> HTML5 con un elemento <track> per una riproduzione accessibile.

Tradurre una lezione in giapponese in sottotitoli in inglese

Attiva Traduci in inglese prima di generare e Whisper produrrà sottotitoli in inglese sincronizzati con il parlato originale, comodo per condividere gli interventi con un pubblico più ampio.

Domande frequenti

Il mio video viene caricato su un server?
No. Entrambi i passaggi vengono eseguiti al 100% nel tuo browser: ffmpeg (WebAssembly) estrae l'audio e Whisper lo trascrive sul tuo dispositivo. I tuoi contenuti non lasciano mai il computer. L'unica richiesta di rete è un download una tantum dei pesi del modello open source da una CDN pubblica.
Quali lingue e formati sono supportati?
Whisper è multilingue e gestisce oltre 90 lingue, tra cui coreano, inglese, giapponese, cinese, spagnolo e altre, con rilevamento automatico. Puoi esportare SRT, WebVTT o una trascrizione in testo semplice e, se vuoi, tradurre un parlato in altre lingue in sottotitoli in inglese.
Quale modello dovrei scegliere?
Small è l'impostazione predefinita consigliata e il minimo pratico per un buon risultato in coreano e in altre lingue CJK. Tiny è il più veloce e leggero ma meno preciso; Turbo (large-v3-turbo) è il più preciso, ma scarica diverse centinaia di megabyte e rende al meglio con WebGPU. Tutti i modelli vengono scaricati una volta e restano in cache.
Perché la prima esecuzione è lenta?
La prima volta che usi un modello, i suoi pesi vengono scaricati una sola volta (decine di MB per Tiny/Small, di più per Turbo) e poi restano in cache per la volta successiva. La trascrizione in sé è molto più veloce sui browser compatibili con WebGPU; senza una GPU si affida alla CPU e i video lunghi possono richiedere un po' di tempo.
I sottotitoli sono abbastanza accurati da pubblicarli?
I sottotitoli generati automaticamente sono un ottimo primo abbozzo, ma non sono perfetti: possono fraintendere i nomi o aggiungere testo casuale su musica o silenzio. Per questo qui ogni riga è modificabile: rivedi e correggi la trascrizione prima di scaricarla, soprattutto per l'accessibilità.
C'è un limite alla dimensione del file?
Tutto viene eseguito nella memoria del browser, quindi i file molto grandi o molto lunghi possono risultare lenti o esaurire la memoria. I file di oltre circa 500 MB mostrano un avviso e quelli di oltre 2 GB vengono bloccati. Per le registrazioni lunghe, conviene usare una clip più corta o un modello più piccolo.

Strumenti correlati