Відео в субтитри (розпізнавання мовлення)

Створюйте субтитри SRT, VTT або звичайний текст із будь-якого відео чи аудіо — мовлення розпізнається у браузері через Whisper, без завантаження файлів на сервер.

Завантаження інструмента…

Відео в субтитри (розпізнавання мовлення)Перетворюйте мовлення з відео на готові субтитри, нічого не завантажуючи на сервер. Перетягніть файл MP4, MOV, WebM, MKV або аудіо — інструмент витягне звук, запустить модель розпізнавання мовлення OpenAI Whisper просто у вашому браузері й створить субтитри SRT, WebVTT або звичайний текст із часовими мітками, які можна відредагувати та завантажити. Звук не залишає ваш пристрій — із публічного CDN один раз завантажуються лише ваги відкритої моделі, — тож ваші записи лишаються цілком конфіденційними.

Що таке Відео в субтитри (розпізнавання мовлення)?

Безкоштовний і приватний генератор субтитрів із відео, який розпізнає мовлення й розставляє його за часовими мітками цілком у вашому браузері. Він використовує ffmpeg, скомпільований у WebAssembly, щоб витягти з відео звук із частотою 16 кГц, а потім запускає багатомовну модель Whisper (через WebGPU, якщо він доступний, інакше на CPU), щоб розпізнати мовлення й розмістити його на таймлайні. Автори, монтажери, студенти та фахівці з доступності використовують його, щоб робити субтитри до інтерв'ю, лекцій, уроків і роликів для соцмереж понад 90 мовами — включно з корейською, японською та китайською — і експортувати SRT для відеоредакторів, WebVTT для вебу або чисту текстову розшифровку. Оберіть розмір моделі, щоб знайти баланс швидкості й точності, визначте мову автоматично або задайте її вручну, за бажанням перекладіть мовлення англійською, а потім виправте будь-який рядок у вбудованому редакторі перед завантаженням.

Як користуватися Відео в субтитри (розпізнавання мовлення)

  1. Перетягніть відео- або аудіофайл у зону завантаження чи клацніть, щоб обрати його. Нічого не завантажується на сервер — файл читається локально.
  2. Оберіть модель: Tiny для швидкості, Small для балансу (рекомендовано) або Turbo для найкращої точності. Більші моделі під час першого запуску завантажують більше даних.
  3. Залиште автовизначення мови або вкажіть мову мовлення, щоб підвищити точність. Увімкніть переклад англійською, якщо хочете отримати англійські субтитри з мовлення іншою мовою.
  4. Натисніть «Створити субтитри». Під час першого запуску модель завантажується один раз (потім береться з кешу); звук витягується й розпізнається просто у браузері.
  5. Оберіть SRT, VTT або Текст, відредагуйте будь-який рядок, щоб виправити формулювання, перегляньте субтитри поверх відео та завантажте файл субтитрів.

Приклади

Субтитри до корейського інтерв'ю у файлі SRT

Перетягніть кліп, залиште модель Small (або Turbo для чистішої корейської), залиште автовизначення мови й експортуйте .srt із часовими мітками, щоб завантажити у відеоредактор.

Субтитри WebVTT для вебвідео

Створіть субтитри, перемкніть формат на VTT і завантажте файл .vtt, який можна підключити до HTML5 <video> елементом <track> для доступного відтворення.

Переклад японської лекції в англійські субтитри

Увімкніть переклад англійською перед створенням — і Whisper видасть англійські субтитри, синхронізовані з оригінальним мовленням. Зручно, щоб ділитися доповідями з ширшою аудиторією.

Поширені запитання

Чи завантажується моє відео на сервер?
Ні. Обидва етапи виконуються на 100 % у вашому браузері: ffmpeg (WebAssembly) витягує звук, а Whisper розпізнає його на вашому пристрої. Ваші файли не залишають комп'ютер. Єдиний мережевий запит — одноразове завантаження ваг відкритої моделі з публічного CDN.
Які мови й формати підтримуються?
Whisper — багатомовна модель, вона працює з понад 90 мовами, включно з корейською, англійською, японською, китайською, іспанською та іншими, з автовизначенням. Можна експортувати SRT, WebVTT або звичайну текстову розшифровку, а за бажанням перекласти мовлення не англійською в англійські субтитри.
Яку модель обрати?
Small — рекомендований варіант за замовчуванням і практичний мінімум для доброї корейської та інших мов CJK. Tiny найшвидша й найлегша, але менш точна; Turbo (large-v3-turbo) найточніша, але завантажує кілька сотень мегабайтів і найкраще працює з WebGPU. Усі моделі завантажуються один раз і кешуються.
Чому перший запуск повільний?
Під час першого використання моделі її ваги завантажуються один раз (десятки MB для Tiny/Small, більше для Turbo), а потім беруться з кешу. Саме розпізнавання йде значно швидше у браузерах із підтримкою WebGPU; без GPU воно перемикається на CPU, і довгі відео можуть оброблятися довго.
Чи достатньо точні субтитри для публікації?
Автоматичні субтитри — хороший чорновик, але не ідеал: вони можуть неправильно розчути імена або додати зайвий текст на музиці чи в тиші. Тому тут можна редагувати кожен рядок: перевірте й виправте розшифровку перед завантаженням, особливо якщо це потрібно для доступності.
Чи є обмеження на розмір файлу?
Усе працює в пам'яті браузера, тож дуже великі або дуже довгі файли можуть оброблятися повільно чи впертися в нестачу пам'яті. Файли понад приблизно 500 MB показують попередження, а файли понад 2 GB блокуються. Для довгих записів допомагає коротший кліп або менша модель.

Схожі інструменти