Question 1

動画はサーバーにアップロードされますか？

Accepted Answer

いいえ。どちらの処理も 100% ブラウザ内で行われます。ffmpeg（WebAssembly）が音声を抽出し、Whisper がデバイス上で文字起こしします。メディアはコンピューターの外に出ることはありません。ネットワーク通信は、公開 CDN からオープンソースのモデル重みを一度だけダウンロードするときだけです。

Question 2

対応している言語と形式は？

Accepted Answer

Whisper は多言語モデルで、日本語・英語・韓国語・中国語・スペイン語などを含む 90 以上の言語を自動検出で扱えます。SRT・WebVTT・プレーンテキストの書き起こしとして書き出せるほか、非英語の音声を英語字幕に翻訳することもできます。

Question 3

どのモデルを選べばいいですか？

Accepted Answer

Small が推奨のデフォルトで、日本語などの CJK 言語で良好な結果を得るための実用的な下限でもあります。Tiny は最も速く軽量ですが精度は低め、Turbo（large-v3-turbo）は最も精度が高い一方で数百 MB をダウンロードし、WebGPU で最もよく動作します。どのモデルも一度ダウンロードすればキャッシュされます。

Question 4

初回の実行はなぜ遅いのですか？

Accepted Answer

モデルを初めて使うとき、その重みが一度だけダウンロードされ（Tiny/Small は数十 MB、Turbo はより大きい）、以降はキャッシュされます。文字起こし自体は WebGPU 対応ブラウザではるかに速くなります。GPU がない場合は CPU にフォールバックし、長い動画には時間がかかることがあります。

Question 5

そのまま公開できるほど字幕は正確ですか？

Accepted Answer

自動生成の字幕は優れた下書きになりますが、完璧ではありません。名前を聞き間違えたり、音楽や無音の部分で余計なテキストが入ったりすることがあります。だからこそ、ここではすべての行を編集できます。特にアクセシビリティ用途では、ダウンロードする前に書き起こしを見直して修正してください。

Question 6

ファイルサイズの制限はありますか？

Accepted Answer

すべての処理がブラウザのメモリ内で行われるため、非常に大きい・長いファイルは遅くなったり、メモリ不足になったりすることがあります。約 500 MB を超えるファイルには警告が表示され、2 GB を超えるファイルはブロックされます。長い録音の場合は、短く切るか、より小さいモデルを使うと役立ちます。

動画字幕ジェネレーター（音声文字起こし）

動画字幕ジェネレーター（音声文字起こし）とは？

動画字幕ジェネレーター（音声文字起こし）の使い方

使用例

韓国語のインタビューを SRT ファイルとして字幕化

Web 動画用の WebVTT 字幕を作る

日本語の講義を英語字幕に翻訳

よくある質問

関連ツール

画像フォーマット変換ツール

Excel/CSV を JSON に変換

EXIF ビューア・メタデータ削除ツール

ファビコン生成ツール