Vidéo en sous-titres (reconnaissance vocale)

Générez des sous-titres SRT, VTT ou en texte brut à partir de n'importe quelle vidéo ou audio en transcrivant la parole localement dans votre navigateur avec Whisper, sans aucun envoi.

Chargement de l'outil…

Vidéo en sous-titres (reconnaissance vocale)Transformez la parole d'une vidéo en sous-titres prêts à l'emploi sans rien envoyer en ligne. Glissez un fichier MP4, MOV, WebM, MKV ou audio : l'outil en extrait le son, exécute le modèle de reconnaissance vocale Whisper d'OpenAI directement dans votre navigateur et produit des sous-titres horodatés au format SRT, WebVTT ou texte brut, que vous pouvez modifier et télécharger. L'audio ne quitte jamais votre appareil — seuls les poids du modèle open source sont récupérés une seule fois depuis un CDN public — vos enregistrements restent donc totalement privés.

Qu'est-ce que Vidéo en sous-titres (reconnaissance vocale) ?

Un générateur de sous-titres gratuit et confidentiel qui transcrit la parole en sous-titres horodatés entièrement dans votre navigateur. Il utilise ffmpeg compilé en WebAssembly pour extraire un flux audio 16 kHz de votre vidéo, puis exécute le modèle multilingue Whisper (via WebGPU si disponible, sinon le CPU) pour reconnaître la parole et la placer sur une chronologie. Créateurs, monteurs, étudiants et équipes d'accessibilité s'en servent pour sous-titrer interviews, cours, tutoriels et vidéos pour les réseaux sociaux dans plus de 90 langues — dont le coréen, le japonais et le chinois — et pour exporter du SRT pour les logiciels de montage, du WebVTT pour le web ou une transcription texte propre. Choisissez une taille de modèle pour arbitrer entre vitesse et précision, détectez la langue automatiquement ou définissez-la, traduisez éventuellement la parole en anglais, puis corrigez chaque ligne dans l'éditeur intégré avant de télécharger.

Comment utiliser Vidéo en sous-titres (reconnaissance vocale)

  1. Déposez un fichier vidéo ou audio sur la zone de dépôt, ou cliquez pour en choisir un. Rien n'est envoyé en ligne : le fichier est lu localement.
  2. Choisissez un modèle : Tiny pour la vitesse, Small pour un bon compromis (recommandé) ou Turbo pour la meilleure précision. Les modèles plus grands téléchargent plus de données à la première utilisation.
  3. Laissez la langue sur Détection automatique, ou indiquez la langue parlée pour gagner en précision. Activez Traduire en anglais si vous voulez des sous-titres anglais à partir d'une parole dans une autre langue.
  4. Cliquez sur Générer les sous-titres. Au premier lancement, le modèle se télécharge une fois (puis il est mis en cache) ; l'audio est extrait et transcrit dans votre navigateur.
  5. Choisissez SRT, VTT ou Texte, modifiez chaque ligne pour corriger la formulation, prévisualisez les sous-titres sur la vidéo, puis téléchargez le fichier de sous-titres.

Exemples

Sous-titrer une interview en coréen dans un fichier SRT

Déposez le clip, gardez le modèle Small (ou Turbo pour un coréen plus propre), laissez la langue sur Détection automatique et exportez un fichier .srt horodaté à charger dans votre logiciel de montage.

Créer des sous-titres WebVTT pour une vidéo web

Générez les sous-titres, passez le format en VTT et téléchargez un fichier .vtt que vous pourrez attacher à une balise <video> HTML5 avec un élément <track> pour une lecture accessible.

Traduire un cours en japonais en sous-titres anglais

Activez Traduire en anglais avant de générer : Whisper produit des sous-titres anglais calés sur la parole d'origine — pratique pour partager des conférences avec un public plus large.

Questions fréquentes

Ma vidéo est-elle envoyée sur un serveur ?
Non. Les deux étapes se déroulent à 100 % dans votre navigateur : ffmpeg (WebAssembly) extrait l'audio et Whisper le transcrit sur votre appareil. Vos médias ne quittent jamais votre ordinateur. La seule requête réseau est le téléchargement unique des poids du modèle open source depuis un CDN public.
Quelles langues et quels formats sont pris en charge ?
Whisper est multilingue et gère plus de 90 langues, dont le coréen, l'anglais, le japonais, le chinois, l'espagnol et bien d'autres, avec détection automatique. Vous pouvez exporter du SRT, du WebVTT ou une transcription en texte brut, et éventuellement traduire une parole non anglaise en sous-titres anglais.
Quel modèle choisir ?
Small est la valeur par défaut recommandée et le minimum pratique pour un bon rendu du coréen et des autres langues CJK. Tiny est le plus rapide et le plus léger mais moins précis ; Turbo (large-v3-turbo) est le plus précis mais télécharge plusieurs centaines de mégaoctets et fonctionne au mieux avec WebGPU. Tous les modèles sont téléchargés une seule fois puis mis en cache.
Pourquoi le premier lancement est-il lent ?
La première fois que vous utilisez un modèle, ses poids se téléchargent une fois (quelques dizaines de MB pour Tiny/Small, davantage pour Turbo) puis sont mis en cache pour la suite. La transcription elle-même est bien plus rapide sur les navigateurs compatibles WebGPU ; sans GPU, elle bascule sur le CPU et les longues vidéos peuvent prendre du temps.
Les sous-titres sont-ils assez précis pour être publiés ?
Les sous-titres générés automatiquement sont un excellent premier jet, mais pas parfaits : ils peuvent mal comprendre des noms ou ajouter du texte parasite sur de la musique ou du silence. C'est pourquoi chaque ligne est modifiable ici : relisez et corrigez la transcription avant de la télécharger, surtout pour l'accessibilité.
Y a-t-il une limite de taille de fichier ?
Tout s'exécute dans la mémoire de votre navigateur : les fichiers très volumineux ou très longs peuvent donc être lents ou manquer de mémoire. Les fichiers de plus de 500 MB environ affichent un avertissement et ceux de plus de 2 GB sont bloqués. Pour les longs enregistrements, un clip plus court ou un modèle plus petit aide.

Outils connexes