Video thành Phụ đề (Chuyển giọng nói thành văn bản)
Tạo phụ đề SRT, VTT hoặc văn bản thuần từ mọi video hay âm thanh bằng cách chuyển giọng nói thành văn bản ngay trong trình duyệt với Whisper — không cần tải lên.
Video thành Phụ đề (Chuyển giọng nói thành văn bản) — Biến giọng nói trong video thành phụ đề sẵn sàng sử dụng mà không cần tải lên bất cứ thứ gì. Kéo thả tệp MP4, MOV, WebM, MKV hoặc tệp âm thanh, công cụ sẽ trích xuất âm thanh, chạy mô hình nhận dạng giọng nói Whisper của OpenAI ngay bên trong trình duyệt của bạn, và tạo ra phụ đề SRT, WebVTT hoặc văn bản thuần có dấu thời gian để bạn chỉnh sửa và tải về. Âm thanh không bao giờ rời khỏi thiết bị của bạn — chỉ trọng số mô hình nguồn mở được tải một lần từ CDN công cộng — nên các bản ghi của bạn hoàn toàn riêng tư.
Video thành Phụ đề (Chuyển giọng nói thành văn bản) là gì?
Một công cụ tạo phụ đề video miễn phí và riêng tư, chuyển giọng nói thành phụ đề có dấu thời gian hoàn toàn bên trong trình duyệt của bạn. Nó dùng ffmpeg được biên dịch sang WebAssembly để tách âm thanh 16 kHz khỏi video, rồi chạy mô hình Whisper đa ngôn ngữ (qua WebGPU khi có thể, nếu không thì qua CPU) để nhận dạng giọng nói và đặt lên dòng thời gian. Người sáng tạo nội dung, biên tập viên, sinh viên và các nhóm hỗ trợ tiếp cận dùng nó để tạo phụ đề cho phỏng vấn, bài giảng, hướng dẫn và clip mạng xã hội bằng hơn 90 ngôn ngữ — bao gồm tiếng Hàn, tiếng Nhật và tiếng Trung — cùng xuất SRT cho phần mềm dựng video, WebVTT cho web, hoặc bản chép văn bản gọn gàng. Chọn kích thước mô hình để cân bằng giữa tốc độ và độ chính xác, tự động nhận diện ngôn ngữ hoặc tự đặt, tùy chọn dịch giọng nói sang tiếng Anh, rồi sửa bất kỳ dòng nào trong trình chỉnh sửa tích hợp trước khi tải về.
Cách sử dụng Video thành Phụ đề (Chuyển giọng nói thành văn bản)
- Kéo thả tệp video hoặc âm thanh vào vùng thả, hoặc nhấp để chọn. Không có gì được tải lên — tệp được đọc cục bộ.
- Chọn một mô hình: Tiny cho tốc độ, Small để cân bằng (khuyến nghị), hoặc Turbo cho độ chính xác cao nhất. Mô hình lớn hơn tải nhiều dữ liệu hơn trong lần đầu dùng.
- Giữ ngôn ngữ ở Tự động nhận diện, hoặc chọn ngôn ngữ đang nói để tăng độ chính xác. Bật Dịch sang tiếng Anh nếu bạn muốn phụ đề tiếng Anh từ giọng nói ngôn ngữ khác.
- Nhấn Tạo phụ đề. Trong lần chạy đầu tiên, mô hình được tải một lần (sau đó được lưu vào bộ nhớ đệm); âm thanh được trích xuất và chuyển thành văn bản ngay trong trình duyệt của bạn.
- Chọn SRT, VTT hoặc Văn bản, chỉnh sửa bất kỳ dòng nào để sửa câu chữ, xem trước phụ đề trên video, rồi tải tệp phụ đề về.
Ví dụ
Tạo phụ đề SRT cho một cuộc phỏng vấn tiếng Hàn
Thả clip vào, giữ mô hình ở Small (hoặc Turbo để tiếng Hàn sạch hơn), giữ ngôn ngữ ở Tự động nhận diện, rồi xuất tệp .srt có dấu thời gian để nạp vào phần mềm dựng video của bạn.
Tạo phụ đề WebVTT cho video trên web
Tạo phụ đề, chuyển định dạng sang VTT, rồi tải tệp .vtt mà bạn có thể gắn vào thẻ <video> HTML5 bằng phần tử <track> để phát lại có hỗ trợ tiếp cận.
Dịch một bài giảng tiếng Nhật thành phụ đề tiếng Anh
Bật Dịch sang tiếng Anh trước khi tạo, và Whisper sẽ xuất phụ đề tiếng Anh khớp với thời điểm của giọng nói gốc — tiện lợi khi chia sẻ các buổi nói chuyện với khán giả rộng hơn.
Câu hỏi thường gặp
- Video của tôi có được tải lên máy chủ không?
- Không. Cả hai bước đều chạy 100% trong trình duyệt của bạn: ffmpeg (WebAssembly) trích xuất âm thanh và Whisper chuyển thành văn bản trên thiết bị của bạn. Phương tiện của bạn không bao giờ rời khỏi máy tính. Yêu cầu mạng duy nhất là việc tải một lần trọng số mô hình nguồn mở từ CDN công cộng.
- Hỗ trợ những ngôn ngữ và định dạng nào?
- Whisper là mô hình đa ngôn ngữ, xử lý hơn 90 ngôn ngữ, bao gồm tiếng Hàn, tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha và nhiều hơn, kèm tự động nhận diện. Bạn có thể xuất SRT, WebVTT hoặc bản chép văn bản thuần, và tùy chọn dịch giọng nói không phải tiếng Anh thành phụ đề tiếng Anh.
- Tôi nên chọn mô hình nào?
- Small là mặc định được khuyến nghị và là mức tối thiểu thực tế để có tiếng Hàn cùng các ngôn ngữ CJK khác tốt. Tiny nhanh nhất và nhẹ nhất nhưng kém chính xác hơn; Turbo (large-v3-turbo) chính xác nhất nhưng tải vài trăm megabyte và chạy tốt nhất với WebGPU. Tất cả mô hình đều được tải một lần rồi lưu vào bộ nhớ đệm.
- Vì sao lần chạy đầu tiên chậm?
- Lần đầu bạn dùng một mô hình, trọng số của nó được tải một lần (vài chục MB cho Tiny/Small, nhiều hơn cho Turbo) rồi được lưu vào bộ nhớ đệm cho lần sau. Bản thân việc chuyển giọng nói thành văn bản nhanh hơn nhiều trên các trình duyệt hỗ trợ WebGPU; không có GPU thì nó chuyển sang CPU và video dài có thể mất một lúc.
- Phụ đề có đủ chính xác để đăng tải không?
- Phụ đề tạo tự động là một bản nháp đầu tốt nhưng không hoàn hảo — có thể nghe nhầm tên hoặc thêm chữ lạc vào chỗ có nhạc hoặc im lặng. Vì vậy mọi dòng ở đây đều có thể chỉnh sửa: hãy xem lại và sửa bản chép trước khi tải về, nhất là cho mục đích hỗ trợ tiếp cận.
- Có giới hạn kích thước tệp không?
- Mọi thứ chạy trong bộ nhớ của trình duyệt, nên tệp rất lớn hoặc rất dài có thể chậm hoặc hết bộ nhớ. Tệp trên khoảng 500 MB sẽ hiện cảnh báo và tệp trên 2 GB bị chặn. Với các bản ghi dài, một clip ngắn hơn hoặc một mô hình nhỏ hơn sẽ hữu ích.
Công cụ liên quan
Trình chuyển đổi định dạng ảnh
Chuyển đổi ảnh giữa AVIF, WebP, PNG, JPEG, BMP, ICO và GIF một khung hình hoàn toàn trong trình duyệt của bạn.
Excel/CSV sang JSON
Chuyển đổi bảng tính Excel hoặc CSV thành JSON hoặc CSV ngay trong trình duyệt của bạn.
Trình xem EXIF & Xóa siêu dữ liệu
Xem siêu dữ liệu EXIF của một hình ảnh — máy ảnh, ống kính, ngày chụp và vị trí GPS — sau đó xóa mọi thẻ và tải về bản sao sạch, tất cả trong trình duyệt của bạn.
Trình tạo Favicon
Tạo gói favicon đầy đủ ngay trong trình duyệt: favicon.ico đa độ phân giải thực thụ, PNG từ 16 đến 512 px, site.webmanifest và đoạn mã HTML.