Question 1

Czy moje wideo jest wysyłane na serwer?

Accepted Answer

Nie. Oba etapy działają w 100% w Twojej przeglądarce: ffmpeg (WebAssembly) wyodrębnia dźwięk, a Whisper transkrybuje go na Twoim urządzeniu. Twoje pliki nigdy nie opuszczają komputera. Jedynym żądaniem sieciowym jest jednorazowe pobranie otwartoźródłowych wag modelu z publicznego CDN.

Question 2

Jakie języki i formaty są obsługiwane?

Accepted Answer

Whisper jest wielojęzyczny i obsługuje ponad 90 języków, w tym koreański, angielski, japoński, chiński, hiszpański i więcej, z automatycznym wykrywaniem. Możesz wyeksportować SRT, WebVTT lub transkrypt tekstowy oraz opcjonalnie przetłumaczyć mowę w innym języku na angielskie napisy.

Question 3

Który model wybrać?

Accepted Answer

Small to zalecane ustawienie domyślne i praktyczne minimum dla dobrego koreańskiego i innych języków CJK. Tiny jest najszybszy i najlżejszy, ale mniej dokładny; Turbo (large-v3-turbo) jest najdokładniejszy, ale pobiera kilkaset megabajtów i działa najlepiej z WebGPU. Wszystkie modele są pobierane raz i zapisywane w pamięci podręcznej.

Question 4

Dlaczego pierwsze uruchomienie jest wolne?

Accepted Answer

Gdy używasz modelu po raz pierwszy, jego wagi pobierają się raz (dziesiątki MB dla Tiny/Small, więcej dla Turbo), a potem są zapisywane w pamięci podręcznej. Sama transkrypcja jest znacznie szybsza w przeglądarkach z obsługą WebGPU; bez GPU następuje przejście na CPU i długie wideo może chwilę potrwać.

Question 5

Czy napisy są wystarczająco dokładne, by je publikować?

Accepted Answer

Automatycznie generowane napisy to mocny pierwszy szkic, ale nie są idealne — mogą źle usłyszeć nazwiska lub dodać zbędny tekst przy muzyce czy ciszy. Dlatego każdy wiersz można tu edytować: przejrzyj i popraw transkrypt przed pobraniem, zwłaszcza pod kątem dostępności.

Question 6

Czy istnieje limit rozmiaru pliku?

Accepted Answer

Wszystko działa w pamięci Twojej przeglądarki, więc bardzo duże lub bardzo długie pliki mogą być wolne albo wyczerpać pamięć. Pliki powyżej około 500 MB pokazują ostrzeżenie, a pliki powyżej 2 GB są blokowane. Przy długich nagraniach pomaga krótszy klip lub mniejszy model.

Wideo na napisy (mowa na tekst)

Czym jest Wideo na napisy (mowa na tekst)?

Jak używać Wideo na napisy (mowa na tekst)

Przykłady

Utwórz napisy do koreańskiego wywiadu jako plik SRT

Utwórz napisy WebVTT do wideo w sieci

Przetłumacz japoński wykład na angielskie napisy

Najczęściej zadawane pytania

Powiązane narzędzia

Konwerter formatu obrazu

Excel/CSV do JSON

Przeglądarka EXIF i usuwanie metadanych

Generator favicon