Question 1

我的视频会上传到服务器吗？

Accepted Answer

不会。两个步骤都 100% 在你的浏览器中完成：ffmpeg（WebAssembly）提取音频，Whisper 在你的设备上转写。你的媒体文件绝不会离开电脑。唯一的网络请求，就是从公共 CDN 一次性下载开源模型权重。

Question 2

支持哪些语言和格式？

Accepted Answer

Whisper 是多语言模型，支持 90 多种语言并可自动检测，包括中文、英语、韩语、日语、西班牙语等。你可以导出 SRT、WebVTT 或纯文本文字稿，也可以把非英语语音翻译成英文字幕。

Question 3

我该选哪个模型？

Accepted Answer

Small 是推荐的默认选项，也是中文等 CJK 语言取得良好效果的实用下限。Tiny 最快最轻，但准确度较低；Turbo（large-v3-turbo）最准确，但需下载数百 MB，且在 WebGPU 下运行最佳。所有模型都只下载一次并被缓存。

Question 4

为什么第一次运行很慢？

Accepted Answer

第一次使用某个模型时，它的权重会下载一次（Tiny/Small 为数十 MB，Turbo 更大），之后便会缓存供下次使用。转写本身在支持 WebGPU 的浏览器中会快得多；没有 GPU 时会回退到 CPU，较长的视频可能要等上一会儿。

Question 5

字幕准确到可以直接发布吗？

Accepted Answer

自动生成的字幕是很好的初稿，但并不完美——它可能听错人名，或在音乐、静音处夹带多余文字。所以这里每一行都可以编辑：下载前请检查并修正文字稿，尤其是用于无障碍用途时。

Question 6

有文件大小限制吗？

Accepted Answer

所有处理都在浏览器内存中进行，因此过大或过长的文件可能变慢或耗尽内存。超过约 500 MB 的文件会显示警告，超过 2 GB 的文件会被阻止。对于较长的录音，剪短片段或改用更小的模型会有帮助。

视频字幕生成器（语音转文字）

视频字幕生成器（语音转文字）是什么？