Video naar ondertitels (spraakherkenning)

Genereer SRT-, VTT- of platte-tekstondertitels uit elke video of audio door de spraak lokaal in je browser te transcriberen met Whisper, zonder uploads.

Tool laden…

Video naar ondertitels (spraakherkenning)Zet de gesproken audio van een video om in kant-en-klare ondertitels zonder iets te uploaden. Sleep een MP4-, MOV-, WebM-, MKV- of audiobestand erin en deze tool haalt het geluid eruit, draait OpenAI's Whisper-spraakherkenningsmodel rechtstreeks in je browser en maakt ondertitels met tijdcodes in SRT, WebVTT of platte tekst die je kunt bewerken en downloaden. De audio verlaat je apparaat nooit — alleen de open-source modelgewichten worden één keer opgehaald van een openbaar CDN — zodat je opnames volledig privé blijven.

Wat is Video naar ondertitels (spraakherkenning)?

Een gratis, privé generator voor video-ondertitels die spraak volledig in je browser omzet in ondertitels met tijdcodes. Het gebruikt ffmpeg gecompileerd naar WebAssembly om 16 kHz-audio uit je video te halen en draait vervolgens het meertalige Whisper-model (via WebGPU indien beschikbaar, anders de CPU) om de spraak te herkennen en op een tijdlijn te plaatsen. Makers, monteurs, studenten en toegankelijkheidsteams gebruiken het om interviews, colleges, tutorials en socialmediaclips te ondertitelen in meer dan 90 talen — waaronder Koreaans, Japans en Chinees — en om SRT te exporteren voor videomontage, WebVTT voor het web of een nette teksttranscriptie. Kies een modelgrootte om snelheid tegen nauwkeurigheid af te wegen, detecteer de taal automatisch of stel hem in, vertaal de spraak eventueel naar het Engels en corrigeer daarna elke regel in de ingebouwde editor voordat je downloadt.

Video naar ondertitels (spraakherkenning) gebruiken

  1. Sleep een video- of audiobestand naar de dropzone, of klik om er een te kiezen. Er wordt niets geüpload — het bestand wordt lokaal ingelezen.
  2. Kies een model: Tiny voor snelheid, Small voor een balans (aanbevolen) of Turbo voor de beste nauwkeurigheid. Grotere modellen downloaden de eerste keer meer data.
  3. Laat de taal op Automatisch detecteren staan, of kies de gesproken taal voor meer nauwkeurigheid. Zet Vertalen naar Engels aan als je Engelse ondertitels wilt bij anderstalige spraak.
  4. Klik op Ondertitels genereren. Bij de eerste keer wordt het model één keer gedownload (daarna wordt het gecachet); de audio wordt in je browser geëxtraheerd en getranscribeerd.
  5. Kies SRT, VTT of Tekst, bewerk elke regel om de formulering te corrigeren, bekijk de ondertitels op de video en download vervolgens het ondertitelbestand.

Voorbeelden

Een Koreaans interview ondertitelen als SRT-bestand

Sleep de clip erin, houd het model op Small (of Turbo voor netter Koreaans), laat de taal op Automatisch detecteren en exporteer een .srt met tijdcodes om in je videomontageprogramma te laden.

WebVTT-ondertitels maken voor een webvideo

Genereer de ondertitels, zet het formaat op VTT en download een .vtt-bestand dat je met een <track>-element aan een HTML5-<video> kunt koppelen voor toegankelijk afspelen.

Een Japans college naar Engelse ondertitels vertalen

Zet Vertalen naar Engels aan voordat je genereert, en Whisper levert Engelse ondertitels die op de originele spraak zijn getimed — handig om lezingen met een breder publiek te delen.

Veelgestelde vragen

Wordt mijn video naar een server geüpload?
Nee. Beide stappen draaien 100% in je browser: ffmpeg (WebAssembly) haalt de audio eruit en Whisper transcribeert die op je apparaat. Je media verlaten je computer nooit. Het enige netwerkverzoek is een eenmalige download van de open-source modelgewichten vanaf een openbaar CDN.
Welke talen en formaten worden ondersteund?
Whisper is meertalig en verwerkt meer dan 90 talen, waaronder Koreaans, Engels, Japans, Chinees, Spaans en meer, met automatische detectie. Je kunt SRT, WebVTT of een platte-teksttranscriptie exporteren en anderstalige spraak eventueel naar Engelse ondertitels vertalen.
Welk model moet ik kiezen?
Small is de aanbevolen standaard en het praktische minimum voor goed Koreaans en andere CJK-talen. Tiny is het snelst en lichtst maar minder nauwkeurig; Turbo (large-v3-turbo) is het nauwkeurigst maar downloadt enkele honderden megabytes en werkt het best met WebGPU. Alle modellen worden één keer gedownload en daarna gecachet.
Waarom is de eerste keer traag?
De eerste keer dat je een model gebruikt, worden de gewichten één keer gedownload (tientallen MB voor Tiny/Small, meer voor Turbo) en daarna gecachet voor de volgende keer. De transcriptie zelf is veel sneller op browsers met WebGPU; zonder GPU valt hij terug op de CPU en kunnen lange video's even duren.
Zijn de ondertitels nauwkeurig genoeg om te publiceren?
Automatisch gegenereerde ondertitels zijn een sterke eerste versie, maar niet perfect — ze kunnen namen verkeerd verstaan of losse tekst toevoegen bij muziek of stilte. Daarom is hier elke regel bewerkbaar: controleer en corrigeer de transcriptie voordat je die downloadt, zeker voor toegankelijkheid.
Is er een limiet op de bestandsgrootte?
Alles draait in het geheugen van je browser, dus heel grote of heel lange bestanden kunnen traag zijn of het geheugen laten vollopen. Bestanden groter dan ongeveer 500 MB tonen een waarschuwing en bestanden groter dan 2 GB worden geblokkeerd. Voor lange opnames helpt een kortere clip of een kleiner model.

Gerelateerde tools