Wideo na napisy (mowa na tekst)
Twórz napisy SRT, VTT lub tekstowe z dowolnego wideo albo audio, transkrybując mowę lokalnie w przeglądarce za pomocą Whisper — bez żadnego wysyłania plików.
Wideo na napisy (mowa na tekst) — Zamień mówioną ścieżkę wideo w gotowe do użycia napisy, nie wysyłając niczego na serwer. Przeciągnij plik MP4, MOV, WebM, MKV lub audio, a to narzędzie wyodrębni dźwięk, uruchomi model rozpoznawania mowy Whisper od OpenAI bezpośrednio w Twojej przeglądarce i utworzy napisy SRT, WebVTT lub tekstowe ze znacznikami czasu, które możesz edytować i pobrać. Dźwięk nigdy nie opuszcza Twojego urządzenia — z publicznego CDN jednorazowo pobierane są tylko otwartoźródłowe wagi modelu — więc Twoje nagrania pozostają w pełni prywatne.
Czym jest Wideo na napisy (mowa na tekst)?
Darmowy, prywatny generator napisów z wideo, który transkrybuje mowę na napisy ze znacznikami czasu w całości w Twojej przeglądarce. Używa ffmpeg skompilowanego do WebAssembly, aby wydobyć z wideo dźwięk 16 kHz, a następnie uruchamia wielojęzyczny model Whisper (przez WebGPU, jeśli jest dostępne, w przeciwnym razie na CPU), aby rozpoznać mowę i rozmieścić ją na osi czasu. Twórcy, montażyści, studenci i zespoły ds. dostępności używają go do tworzenia napisów do wywiadów, wykładów, poradników i klipów społecznościowych w ponad 90 językach — w tym koreańskim, japońskim i chińskim — oraz do eksportu SRT do programów montażowych, WebVTT do sieci lub czystego transkryptu tekstowego. Wybierz rozmiar modelu, aby zrównoważyć szybkość i dokładność, wykryj język automatycznie lub ustaw go, opcjonalnie przetłumacz mowę na angielski, a potem popraw dowolny wiersz we wbudowanym edytorze, zanim pobierzesz plik.
Jak używać Wideo na napisy (mowa na tekst)
- Przeciągnij plik wideo lub audio na pole albo kliknij, aby go wybrać. Nic nie jest wysyłane — plik jest odczytywany lokalnie.
- Wybierz model: Tiny dla szybkości, Small dla równowagi (zalecany) lub Turbo dla najlepszej dokładności. Większe modele pobierają za pierwszym razem więcej danych.
- Zostaw język na Wykryj automatycznie lub wskaż mówiony język, aby poprawić dokładność. Włącz Tłumacz na angielski, jeśli chcesz uzyskać angielskie napisy z mowy w innym języku.
- Kliknij Utwórz napisy. Przy pierwszym uruchomieniu model pobiera się raz (potem jest zapisany w pamięci podręcznej); dźwięk jest wyodrębniany i transkrybowany w Twojej przeglądarce.
- Wybierz SRT, VTT lub Tekst, popraw dowolny wiersz, aby skorygować treść, podejrzyj napisy na wideo, a następnie pobierz plik z napisami.
Przykłady
Utwórz napisy do koreańskiego wywiadu jako plik SRT
Przeciągnij klip, zostaw model na Small (albo Turbo dla czystszego koreańskiego), pozostaw język na Wykryj automatycznie i wyeksportuj plik .srt ze znacznikami czasu do wczytania w programie montażowym.
Utwórz napisy WebVTT do wideo w sieci
Wygeneruj napisy, przełącz format na VTT i pobierz plik .vtt, który dołączysz do elementu HTML5 <video> za pomocą elementu <track>, aby zapewnić dostępne odtwarzanie.
Przetłumacz japoński wykład na angielskie napisy
Przed generowaniem włącz Tłumacz na angielski, a Whisper wygeneruje angielskie napisy zsynchronizowane z oryginalną mową — przydatne przy udostępnianiu prelekcji szerszej publiczności.
Najczęściej zadawane pytania
- Czy moje wideo jest wysyłane na serwer?
- Nie. Oba etapy działają w 100% w Twojej przeglądarce: ffmpeg (WebAssembly) wyodrębnia dźwięk, a Whisper transkrybuje go na Twoim urządzeniu. Twoje pliki nigdy nie opuszczają komputera. Jedynym żądaniem sieciowym jest jednorazowe pobranie otwartoźródłowych wag modelu z publicznego CDN.
- Jakie języki i formaty są obsługiwane?
- Whisper jest wielojęzyczny i obsługuje ponad 90 języków, w tym koreański, angielski, japoński, chiński, hiszpański i więcej, z automatycznym wykrywaniem. Możesz wyeksportować SRT, WebVTT lub transkrypt tekstowy oraz opcjonalnie przetłumaczyć mowę w innym języku na angielskie napisy.
- Który model wybrać?
- Small to zalecane ustawienie domyślne i praktyczne minimum dla dobrego koreańskiego i innych języków CJK. Tiny jest najszybszy i najlżejszy, ale mniej dokładny; Turbo (large-v3-turbo) jest najdokładniejszy, ale pobiera kilkaset megabajtów i działa najlepiej z WebGPU. Wszystkie modele są pobierane raz i zapisywane w pamięci podręcznej.
- Dlaczego pierwsze uruchomienie jest wolne?
- Gdy używasz modelu po raz pierwszy, jego wagi pobierają się raz (dziesiątki MB dla Tiny/Small, więcej dla Turbo), a potem są zapisywane w pamięci podręcznej. Sama transkrypcja jest znacznie szybsza w przeglądarkach z obsługą WebGPU; bez GPU następuje przejście na CPU i długie wideo może chwilę potrwać.
- Czy napisy są wystarczająco dokładne, by je publikować?
- Automatycznie generowane napisy to mocny pierwszy szkic, ale nie są idealne — mogą źle usłyszeć nazwiska lub dodać zbędny tekst przy muzyce czy ciszy. Dlatego każdy wiersz można tu edytować: przejrzyj i popraw transkrypt przed pobraniem, zwłaszcza pod kątem dostępności.
- Czy istnieje limit rozmiaru pliku?
- Wszystko działa w pamięci Twojej przeglądarki, więc bardzo duże lub bardzo długie pliki mogą być wolne albo wyczerpać pamięć. Pliki powyżej około 500 MB pokazują ostrzeżenie, a pliki powyżej 2 GB są blokowane. Przy długich nagraniach pomaga krótszy klip lub mniejszy model.
Powiązane narzędzia
Konwerter formatu obrazu
Konwertuj obrazy między AVIF, WebP, PNG, JPEG, BMP, ICO i jednoklatkowym GIF-em w całości w przeglądarce.
Excel/CSV do JSON
Konwertuj arkusz Excel lub CSV na JSON albo CSV bezpośrednio w przeglądarce.
Przeglądarka EXIF i usuwanie metadanych
Zobacz metadane EXIF obrazu — aparat, obiektyw, datę wykonania i lokalizację GPS — a następnie usuń każdy znacznik i pobierz czystą kopię, wszystko w przeglądarce.
Generator favicon
Zbuduj kompletny pakiet favicon w przeglądarce: prawdziwy wielorozdzielczościowy favicon.ico, pliki PNG od 16 do 512 px, site.webmanifest i fragment HTML.