Wideo na napisy (mowa na tekst)

Twórz napisy SRT, VTT lub tekstowe z dowolnego wideo albo audio, transkrybując mowę lokalnie w przeglądarce za pomocą Whisper — bez żadnego wysyłania plików.

Ładowanie narzędzia…

Wideo na napisy (mowa na tekst)Zamień mówioną ścieżkę wideo w gotowe do użycia napisy, nie wysyłając niczego na serwer. Przeciągnij plik MP4, MOV, WebM, MKV lub audio, a to narzędzie wyodrębni dźwięk, uruchomi model rozpoznawania mowy Whisper od OpenAI bezpośrednio w Twojej przeglądarce i utworzy napisy SRT, WebVTT lub tekstowe ze znacznikami czasu, które możesz edytować i pobrać. Dźwięk nigdy nie opuszcza Twojego urządzenia — z publicznego CDN jednorazowo pobierane są tylko otwartoźródłowe wagi modelu — więc Twoje nagrania pozostają w pełni prywatne.

Czym jest Wideo na napisy (mowa na tekst)?

Darmowy, prywatny generator napisów z wideo, który transkrybuje mowę na napisy ze znacznikami czasu w całości w Twojej przeglądarce. Używa ffmpeg skompilowanego do WebAssembly, aby wydobyć z wideo dźwięk 16 kHz, a następnie uruchamia wielojęzyczny model Whisper (przez WebGPU, jeśli jest dostępne, w przeciwnym razie na CPU), aby rozpoznać mowę i rozmieścić ją na osi czasu. Twórcy, montażyści, studenci i zespoły ds. dostępności używają go do tworzenia napisów do wywiadów, wykładów, poradników i klipów społecznościowych w ponad 90 językach — w tym koreańskim, japońskim i chińskim — oraz do eksportu SRT do programów montażowych, WebVTT do sieci lub czystego transkryptu tekstowego. Wybierz rozmiar modelu, aby zrównoważyć szybkość i dokładność, wykryj język automatycznie lub ustaw go, opcjonalnie przetłumacz mowę na angielski, a potem popraw dowolny wiersz we wbudowanym edytorze, zanim pobierzesz plik.

Jak używać Wideo na napisy (mowa na tekst)

  1. Przeciągnij plik wideo lub audio na pole albo kliknij, aby go wybrać. Nic nie jest wysyłane — plik jest odczytywany lokalnie.
  2. Wybierz model: Tiny dla szybkości, Small dla równowagi (zalecany) lub Turbo dla najlepszej dokładności. Większe modele pobierają za pierwszym razem więcej danych.
  3. Zostaw język na Wykryj automatycznie lub wskaż mówiony język, aby poprawić dokładność. Włącz Tłumacz na angielski, jeśli chcesz uzyskać angielskie napisy z mowy w innym języku.
  4. Kliknij Utwórz napisy. Przy pierwszym uruchomieniu model pobiera się raz (potem jest zapisany w pamięci podręcznej); dźwięk jest wyodrębniany i transkrybowany w Twojej przeglądarce.
  5. Wybierz SRT, VTT lub Tekst, popraw dowolny wiersz, aby skorygować treść, podejrzyj napisy na wideo, a następnie pobierz plik z napisami.

Przykłady

Utwórz napisy do koreańskiego wywiadu jako plik SRT

Przeciągnij klip, zostaw model na Small (albo Turbo dla czystszego koreańskiego), pozostaw język na Wykryj automatycznie i wyeksportuj plik .srt ze znacznikami czasu do wczytania w programie montażowym.

Utwórz napisy WebVTT do wideo w sieci

Wygeneruj napisy, przełącz format na VTT i pobierz plik .vtt, który dołączysz do elementu HTML5 <video> za pomocą elementu <track>, aby zapewnić dostępne odtwarzanie.

Przetłumacz japoński wykład na angielskie napisy

Przed generowaniem włącz Tłumacz na angielski, a Whisper wygeneruje angielskie napisy zsynchronizowane z oryginalną mową — przydatne przy udostępnianiu prelekcji szerszej publiczności.

Najczęściej zadawane pytania

Czy moje wideo jest wysyłane na serwer?
Nie. Oba etapy działają w 100% w Twojej przeglądarce: ffmpeg (WebAssembly) wyodrębnia dźwięk, a Whisper transkrybuje go na Twoim urządzeniu. Twoje pliki nigdy nie opuszczają komputera. Jedynym żądaniem sieciowym jest jednorazowe pobranie otwartoźródłowych wag modelu z publicznego CDN.
Jakie języki i formaty są obsługiwane?
Whisper jest wielojęzyczny i obsługuje ponad 90 języków, w tym koreański, angielski, japoński, chiński, hiszpański i więcej, z automatycznym wykrywaniem. Możesz wyeksportować SRT, WebVTT lub transkrypt tekstowy oraz opcjonalnie przetłumaczyć mowę w innym języku na angielskie napisy.
Który model wybrać?
Small to zalecane ustawienie domyślne i praktyczne minimum dla dobrego koreańskiego i innych języków CJK. Tiny jest najszybszy i najlżejszy, ale mniej dokładny; Turbo (large-v3-turbo) jest najdokładniejszy, ale pobiera kilkaset megabajtów i działa najlepiej z WebGPU. Wszystkie modele są pobierane raz i zapisywane w pamięci podręcznej.
Dlaczego pierwsze uruchomienie jest wolne?
Gdy używasz modelu po raz pierwszy, jego wagi pobierają się raz (dziesiątki MB dla Tiny/Small, więcej dla Turbo), a potem są zapisywane w pamięci podręcznej. Sama transkrypcja jest znacznie szybsza w przeglądarkach z obsługą WebGPU; bez GPU następuje przejście na CPU i długie wideo może chwilę potrwać.
Czy napisy są wystarczająco dokładne, by je publikować?
Automatycznie generowane napisy to mocny pierwszy szkic, ale nie są idealne — mogą źle usłyszeć nazwiska lub dodać zbędny tekst przy muzyce czy ciszy. Dlatego każdy wiersz można tu edytować: przejrzyj i popraw transkrypt przed pobraniem, zwłaszcza pod kątem dostępności.
Czy istnieje limit rozmiaru pliku?
Wszystko działa w pamięci Twojej przeglądarki, więc bardzo duże lub bardzo długie pliki mogą być wolne albo wyczerpać pamięć. Pliki powyżej około 500 MB pokazują ostrzeżenie, a pliki powyżej 2 GB są blokowane. Przy długich nagraniach pomaga krótszy klip lub mniejszy model.

Powiązane narzędzia