Видео в субтитры (распознавание речи)

Создавайте субтитры SRT, VTT или обычный текст из любого видео или аудио — речь распознаётся прямо в браузере через Whisper, без загрузки файлов на сервер.

Загрузка инструмента…

Видео в субтитры (распознавание речи)Превращайте речь из видео в готовые субтитры, ничего не загружая на сервер. Перетащите файл MP4, MOV, WebM, MKV или аудио — инструмент извлечёт звук, запустит модель распознавания речи OpenAI Whisper прямо в вашем браузере и создаст субтитры SRT, WebVTT или обычный текст с временными метками, которые можно отредактировать и скачать. Звук не покидает ваше устройство — из публичного CDN один раз загружаются только веса открытой модели, — поэтому ваши записи остаются полностью конфиденциальными.

Что такое Видео в субтитры (распознавание речи)?

Бесплатный и приватный генератор субтитров из видео, который распознаёт речь и расставляет её по временным меткам целиком в вашем браузере. Он использует ffmpeg, скомпилированный в WebAssembly, чтобы извлечь из видео звук с частотой 16 кГц, а затем запускает многоязычную модель Whisper (через WebGPU, если он доступен, иначе на CPU), чтобы распознать речь и разместить её на таймлайне. Авторы, монтажёры, студенты и специалисты по доступности используют его, чтобы делать субтитры к интервью, лекциям, урокам и роликам для соцсетей на более чем 90 языках — включая корейский, японский и китайский — и экспортировать SRT для видеоредакторов, WebVTT для веба или чистую текстовую расшифровку. Выберите размер модели, чтобы найти баланс скорости и точности, определите язык автоматически или задайте его вручную, при желании переведите речь на английский, а затем поправьте любую строку во встроенном редакторе перед скачиванием.

Как пользоваться Видео в субтитры (распознавание речи)

  1. Перетащите видео- или аудиофайл в зону загрузки или щёлкните, чтобы выбрать его. Ничего не загружается на сервер — файл читается локально.
  2. Выберите модель: Tiny для скорости, Small для баланса (рекомендуется) или Turbo для наилучшей точности. Крупные модели при первом запуске скачивают больше данных.
  3. Оставьте автоопределение языка или укажите язык речи, чтобы повысить точность. Включите перевод на английский, если хотите получить английские субтитры из речи на другом языке.
  4. Нажмите «Создать субтитры». При первом запуске модель скачивается один раз (потом берётся из кэша); звук извлекается и распознаётся прямо в браузере.
  5. Выберите SRT, VTT или Текст, отредактируйте любую строку, чтобы поправить формулировку, посмотрите субтитры поверх видео и скачайте файл субтитров.

Примеры

Субтитры к корейскому интервью в файле SRT

Перетащите ролик, оставьте модель Small (или Turbo для более чистого корейского), оставьте автоопределение языка и экспортируйте .srt с временными метками для загрузки в видеоредактор.

Субтитры WebVTT для веб-видео

Создайте субтитры, переключите формат на VTT и скачайте файл .vtt, который можно подключить к HTML5 <video> элементом <track> для доступного воспроизведения.

Перевод японской лекции в английские субтитры

Включите перевод на английский перед созданием — и Whisper выдаст английские субтитры, синхронизированные с исходной речью. Удобно, чтобы делиться докладами с более широкой аудиторией.

Часто задаваемые вопросы

Загружается ли моё видео на сервер?
Нет. Оба этапа выполняются на 100 % в вашем браузере: ffmpeg (WebAssembly) извлекает звук, а Whisper распознаёт его на вашем устройстве. Ваши файлы не покидают компьютер. Единственный сетевой запрос — однократное скачивание весов открытой модели из публичного CDN.
Какие языки и форматы поддерживаются?
Whisper — многоязычная модель, она работает с более чем 90 языками, включая корейский, английский, японский, китайский, испанский и другие, с автоопределением. Можно экспортировать SRT, WebVTT или обычную текстовую расшифровку, а при желании перевести речь не на английском в английские субтитры.
Какую модель выбрать?
Small — рекомендуемый вариант по умолчанию и практический минимум для хорошего корейского и других языков CJK. Tiny самая быстрая и лёгкая, но менее точная; Turbo (large-v3-turbo) самая точная, но скачивает несколько сотен мегабайт и лучше всего работает с WebGPU. Все модели скачиваются один раз и кэшируются.
Почему первый запуск медленный?
При первом использовании модели её веса скачиваются один раз (десятки MB для Tiny/Small, больше для Turbo), а затем берутся из кэша. Само распознавание идёт гораздо быстрее в браузерах с поддержкой WebGPU; без GPU оно переключается на CPU, и длинные видео могут обрабатываться долго.
Достаточно ли точны субтитры для публикации?
Автоматические субтитры — хороший черновик, но не идеал: они могут неверно расслышать имена или добавить лишний текст на музыке или в тишине. Поэтому здесь можно редактировать каждую строку: проверьте и поправьте расшифровку перед скачиванием, особенно если это нужно для доступности.
Есть ли ограничение на размер файла?
Всё работает в памяти браузера, поэтому очень большие или очень длинные файлы могут обрабатываться медленно или упереться в нехватку памяти. Файлы больше примерно 500 MB показывают предупреждение, а файлы больше 2 GB блокируются. Для длинных записей помогает более короткий ролик или модель поменьше.

Похожие инструменты