動画字幕ジェネレーター(音声文字起こし)
動画や音声の話し声をブラウザ内の Whisper でローカルに認識し、タイムスタンプ付きの SRT・VTT・プレーンテキスト字幕を生成します。アップロードは一切不要です。
動画字幕ジェネレーター(音声文字起こし) — 動画の話し声を、アップロード不要でそのまま使える字幕に変換します。MP4・MOV・WebM・MKV や音声ファイルをドロップすると、音声を抽出し、OpenAI の Whisper 音声認識モデルをブラウザ内で直接実行して、タイムスタンプ付きの SRT・WebVTT・プレーンテキスト字幕を生成し、編集してダウンロードできます。音声はデバイスの外に出ず、公開 CDN からオープンソースのモデル重みを最初に一度だけ取得するだけなので、録音は完全に非公開のままです。
動画字幕ジェネレーター(音声文字起こし)とは?
音声をタイムスタンプ付きの字幕に変換する、すべてブラウザ内で完結する無料・非公開の動画字幕ジェネレーターです。WebAssembly にコンパイルした ffmpeg で動画から 16 kHz の音声を取り出し、多言語対応の Whisper モデルを(利用可能なら WebGPU、なければ CPU で)実行して話し声を認識し、タイムラインに配置します。クリエイター・編集者・学生・アクセシビリティ担当者が、インタビュー・講義・チュートリアル・SNS 向けクリップを日本語・韓国語・中国語を含む 90 以上の言語で字幕化し、動画編集ソフト向けの SRT、Web 向けの WebVTT、あるいはすっきりしたテキスト書き起こしとして書き出すために使います。モデルサイズで速度と精度を調整し、言語を自動検出または指定し、必要に応じて話し声を英語に翻訳したうえで、ダウンロード前に内蔵エディターで任意の行を修正できます。
動画字幕ジェネレーター(音声文字起こし)の使い方
- 動画または音声ファイルをドロップゾーンにドラッグするか、クリックして選択します。アップロードはされず、ファイルはローカルで読み込まれるだけです。
- モデルを選びます。速さ重視なら Tiny、バランス重視なら Small(推奨)、最高精度なら Turbo です。大きいモデルは初回により多くのデータをダウンロードします。
- 言語は自動検出のままにするか、精度を上げたい場合は話されている言語を指定します。他言語の音声から英語字幕を作りたいときは「英語に翻訳」をオンにします。
- 「字幕を生成」を押します。初回はモデルが一度だけダウンロードされ(以降はキャッシュされます)、音声の抽出と文字起こしがブラウザ内で行われます。
- SRT・VTT・テキストから形式を選び、任意の行を編集して文言を直し、動画上で字幕をプレビューしてから字幕ファイルをダウンロードします。
使用例
韓国語のインタビューを SRT ファイルとして字幕化
クリップをドロップし、モデルは Small のまま(よりきれいな韓国語なら Turbo)、言語は自動検出のままにすれば、動画編集ソフトに読み込めるタイムスタンプ付きの .srt が書き出せます。
Web 動画用の WebVTT 字幕を作る
字幕を生成したら形式を VTT に切り替え、.vtt ファイルをダウンロードして、HTML5 の <video> に <track> 要素で添付すれば、アクセシブルな再生ができます。
日本語の講義を英語字幕に翻訳
生成する前に「英語に翻訳」をオンにすると、Whisper が元の音声のタイミングに合わせた英語字幕を出力します。講演をより幅広い聴衆と共有するのに便利です。
よくある質問
- 動画はサーバーにアップロードされますか?
- いいえ。どちらの処理も 100% ブラウザ内で行われます。ffmpeg(WebAssembly)が音声を抽出し、Whisper がデバイス上で文字起こしします。メディアはコンピューターの外に出ることはありません。ネットワーク通信は、公開 CDN からオープンソースのモデル重みを一度だけダウンロードするときだけです。
- 対応している言語と形式は?
- Whisper は多言語モデルで、日本語・英語・韓国語・中国語・スペイン語などを含む 90 以上の言語を自動検出で扱えます。SRT・WebVTT・プレーンテキストの書き起こしとして書き出せるほか、非英語の音声を英語字幕に翻訳することもできます。
- どのモデルを選べばいいですか?
- Small が推奨のデフォルトで、日本語などの CJK 言語で良好な結果を得るための実用的な下限でもあります。Tiny は最も速く軽量ですが精度は低め、Turbo(large-v3-turbo)は最も精度が高い一方で数百 MB をダウンロードし、WebGPU で最もよく動作します。どのモデルも一度ダウンロードすればキャッシュされます。
- 初回の実行はなぜ遅いのですか?
- モデルを初めて使うとき、その重みが一度だけダウンロードされ(Tiny/Small は数十 MB、Turbo はより大きい)、以降はキャッシュされます。文字起こし自体は WebGPU 対応ブラウザではるかに速くなります。GPU がない場合は CPU にフォールバックし、長い動画には時間がかかることがあります。
- そのまま公開できるほど字幕は正確ですか?
- 自動生成の字幕は優れた下書きになりますが、完璧ではありません。名前を聞き間違えたり、音楽や無音の部分で余計なテキストが入ったりすることがあります。だからこそ、ここではすべての行を編集できます。特にアクセシビリティ用途では、ダウンロードする前に書き起こしを見直して修正してください。
- ファイルサイズの制限はありますか?
- すべての処理がブラウザのメモリ内で行われるため、非常に大きい・長いファイルは遅くなったり、メモリ不足になったりすることがあります。約 500 MB を超えるファイルには警告が表示され、2 GB を超えるファイルはブロックされます。長い録音の場合は、短く切るか、より小さいモデルを使うと役立ちます。
関連ツール
画像フォーマット変換ツール
画像を AVIF・WebP・PNG・JPEG・BMP・ICO・単一フレーム GIF の間でブラウザー内で相互変換します。
Excel/CSV を JSON に変換
Excel や CSV の表をブラウザ内で JSON または CSV に変換します。
EXIF ビューア・メタデータ削除ツール
画像の EXIF メタデータ(カメラ・レンズ・撮影日時・GPS 位置)を確認し、削除してきれいなコピーをダウンロードできます。すべてブラウザ内で完結します。
ファビコン生成ツール
ブラウザ内で完全な favicon 一式を生成:本物の多解像度 favicon.ico、16〜512 px の PNG、site.webmanifest、HTML スニペット。