Question 1

Загружается ли моё видео на сервер?

Accepted Answer

Нет. Оба этапа выполняются на 100 % в вашем браузере: ffmpeg (WebAssembly) извлекает звук, а Whisper распознаёт его на вашем устройстве. Ваши файлы не покидают компьютер. Единственный сетевой запрос — однократное скачивание весов открытой модели из публичного CDN.

Question 2

Какие языки и форматы поддерживаются?

Accepted Answer

Whisper — многоязычная модель, она работает с более чем 90 языками, включая корейский, английский, японский, китайский, испанский и другие, с автоопределением. Можно экспортировать SRT, WebVTT или обычную текстовую расшифровку, а при желании перевести речь не на английском в английские субтитры.

Question 3

Какую модель выбрать?

Accepted Answer

Small — рекомендуемый вариант по умолчанию и практический минимум для хорошего корейского и других языков CJK. Tiny самая быстрая и лёгкая, но менее точная; Turbo (large-v3-turbo) самая точная, но скачивает несколько сотен мегабайт и лучше всего работает с WebGPU. Все модели скачиваются один раз и кэшируются.

Question 4

Почему первый запуск медленный?

Accepted Answer

При первом использовании модели её веса скачиваются один раз (десятки MB для Tiny/Small, больше для Turbo), а затем берутся из кэша. Само распознавание идёт гораздо быстрее в браузерах с поддержкой WebGPU; без GPU оно переключается на CPU, и длинные видео могут обрабатываться долго.

Question 5

Достаточно ли точны субтитры для публикации?

Accepted Answer

Автоматические субтитры — хороший черновик, но не идеал: они могут неверно расслышать имена или добавить лишний текст на музыке или в тишине. Поэтому здесь можно редактировать каждую строку: проверьте и поправьте расшифровку перед скачиванием, особенно если это нужно для доступности.

Question 6

Есть ли ограничение на размер файла?

Accepted Answer

Всё работает в памяти браузера, поэтому очень большие или очень длинные файлы могут обрабатываться медленно или упереться в нехватку памяти. Файлы больше примерно 500 MB показывают предупреждение, а файлы больше 2 GB блокируются. Для длинных записей помогает более короткий ролик или модель поменьше.

Видео в субтитры (распознавание речи)

Что такое Видео в субтитры (распознавание речи)?

Как пользоваться Видео в субтитры (распознавание речи)

Примеры

Субтитры к корейскому интервью в файле SRT

Субтитры WebVTT для веб-видео

Перевод японской лекции в английские субтитры

Часто задаваемые вопросы

Похожие инструменты

Конвертер форматов изображений

Excel/CSV в JSON

Просмотр EXIF и удаление метаданных

Генератор фавиконов