视频字幕生成器(语音转文字)
在浏览器中用 Whisper 本地识别视频或音频里的语音,生成带时间轴的 SRT、VTT 或纯文本字幕,全程无需上传任何文件。
视频字幕生成器(语音转文字) — 把视频里的说话声变成可以直接使用的字幕,全程无需上传任何文件。拖入 MP4、MOV、WebM、MKV 或音频文件,本工具会提取声音,在你的浏览器里直接运行 OpenAI 的 Whisper 语音识别模型,生成带时间轴的 SRT、WebVTT 或纯文本字幕,可随时编辑并下载。音频始终不会离开你的设备——只有开源的模型权重会从公共 CDN 首次下载一次——因此你的录音完全保密。
视频字幕生成器(语音转文字) 是什么?
一款免费、私密的视频字幕生成器,全程在浏览器中把语音转写成带时间轴的字幕。它用编译为 WebAssembly 的 ffmpeg 从视频中提取 16 kHz 音频,再运行多语言 Whisper 模型(可用时走 WebGPU,否则走 CPU)识别语音并将其排布到时间轴上。创作者、剪辑师、学生和无障碍团队用它为采访、讲座、教程和社交短视频生成字幕,支持包括中文、韩语、日语在内的 90 多种语言,并可导出供视频编辑器使用的 SRT、供网页使用的 WebVTT,或一份干净的文字稿。你可以通过模型大小在速度和准确度之间取舍,自动检测或手动指定语言,也可以选择把语音翻译成英文,然后在内置编辑器里修改任意一行,再下载。
如何使用 视频字幕生成器(语音转文字)
- 把视频或音频文件拖到拖放区,或点击选择文件。不会上传任何内容——文件只在本地读取。
- 选择模型:追求速度用 Tiny,兼顾平衡用 Small(推荐),追求最高准确度用 Turbo。模型越大,首次使用时下载的数据越多。
- 语言保持在自动检测,或指定所说语言以提高准确度。如果想把其他语言的语音转成英文字幕,请打开“翻译成英文”。
- 点击“生成字幕”。首次运行会下载一次模型(之后会缓存),随后在你的浏览器里提取并转写音频。
- 选择 SRT、VTT 或纯文本,编辑任意一行以修正文字,在视频上预览字幕,然后下载字幕文件。
示例
把韩语采访生成 SRT 字幕文件
拖入片段,模型保持 Small(想要更干净的韩语可用 Turbo),语言保持自动检测,即可导出带时间轴的 .srt,直接载入视频编辑器。
为网页视频制作 WebVTT 字幕
生成字幕后把格式切换为 VTT,下载 .vtt 文件,再用 <track> 元素挂到 HTML5 <video> 上,实现带无障碍的播放。
把日语讲座翻译成英文字幕
生成前打开“翻译成英文”,Whisper 就会输出与原始语音对齐时间的英文字幕——很适合把演讲分享给更广泛的观众。
常见问题
- 我的视频会上传到服务器吗?
- 不会。两个步骤都 100% 在你的浏览器中完成:ffmpeg(WebAssembly)提取音频,Whisper 在你的设备上转写。你的媒体文件绝不会离开电脑。唯一的网络请求,就是从公共 CDN 一次性下载开源模型权重。
- 支持哪些语言和格式?
- Whisper 是多语言模型,支持 90 多种语言并可自动检测,包括中文、英语、韩语、日语、西班牙语等。你可以导出 SRT、WebVTT 或纯文本文字稿,也可以把非英语语音翻译成英文字幕。
- 我该选哪个模型?
- Small 是推荐的默认选项,也是中文等 CJK 语言取得良好效果的实用下限。Tiny 最快最轻,但准确度较低;Turbo(large-v3-turbo)最准确,但需下载数百 MB,且在 WebGPU 下运行最佳。所有模型都只下载一次并被缓存。
- 为什么第一次运行很慢?
- 第一次使用某个模型时,它的权重会下载一次(Tiny/Small 为数十 MB,Turbo 更大),之后便会缓存供下次使用。转写本身在支持 WebGPU 的浏览器中会快得多;没有 GPU 时会回退到 CPU,较长的视频可能要等上一会儿。
- 字幕准确到可以直接发布吗?
- 自动生成的字幕是很好的初稿,但并不完美——它可能听错人名,或在音乐、静音处夹带多余文字。所以这里每一行都可以编辑:下载前请检查并修正文字稿,尤其是用于无障碍用途时。
- 有文件大小限制吗?
- 所有处理都在浏览器内存中进行,因此过大或过长的文件可能变慢或耗尽内存。超过约 500 MB 的文件会显示警告,超过 2 GB 的文件会被阻止。对于较长的录音,剪短片段或改用更小的模型会有帮助。