Question 1

Video của tôi có được tải lên máy chủ không?

Accepted Answer

Không. Cả hai bước đều chạy 100% trong trình duyệt của bạn: ffmpeg (WebAssembly) trích xuất âm thanh và Whisper chuyển thành văn bản trên thiết bị của bạn. Phương tiện của bạn không bao giờ rời khỏi máy tính. Yêu cầu mạng duy nhất là việc tải một lần trọng số mô hình nguồn mở từ CDN công cộng.

Question 2

Hỗ trợ những ngôn ngữ và định dạng nào?

Accepted Answer

Whisper là mô hình đa ngôn ngữ, xử lý hơn 90 ngôn ngữ, bao gồm tiếng Hàn, tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha và nhiều hơn, kèm tự động nhận diện. Bạn có thể xuất SRT, WebVTT hoặc bản chép văn bản thuần, và tùy chọn dịch giọng nói không phải tiếng Anh thành phụ đề tiếng Anh.

Question 3

Tôi nên chọn mô hình nào?

Accepted Answer

Small là mặc định được khuyến nghị và là mức tối thiểu thực tế để có tiếng Hàn cùng các ngôn ngữ CJK khác tốt. Tiny nhanh nhất và nhẹ nhất nhưng kém chính xác hơn; Turbo (large-v3-turbo) chính xác nhất nhưng tải vài trăm megabyte và chạy tốt nhất với WebGPU. Tất cả mô hình đều được tải một lần rồi lưu vào bộ nhớ đệm.

Question 4

Vì sao lần chạy đầu tiên chậm?

Accepted Answer

Lần đầu bạn dùng một mô hình, trọng số của nó được tải một lần (vài chục MB cho Tiny/Small, nhiều hơn cho Turbo) rồi được lưu vào bộ nhớ đệm cho lần sau. Bản thân việc chuyển giọng nói thành văn bản nhanh hơn nhiều trên các trình duyệt hỗ trợ WebGPU; không có GPU thì nó chuyển sang CPU và video dài có thể mất một lúc.

Question 5

Phụ đề có đủ chính xác để đăng tải không?

Accepted Answer

Phụ đề tạo tự động là một bản nháp đầu tốt nhưng không hoàn hảo — có thể nghe nhầm tên hoặc thêm chữ lạc vào chỗ có nhạc hoặc im lặng. Vì vậy mọi dòng ở đây đều có thể chỉnh sửa: hãy xem lại và sửa bản chép trước khi tải về, nhất là cho mục đích hỗ trợ tiếp cận.

Question 6

Có giới hạn kích thước tệp không?

Accepted Answer

Mọi thứ chạy trong bộ nhớ của trình duyệt, nên tệp rất lớn hoặc rất dài có thể chậm hoặc hết bộ nhớ. Tệp trên khoảng 500 MB sẽ hiện cảnh báo và tệp trên 2 GB bị chặn. Với các bản ghi dài, một clip ngắn hơn hoặc một mô hình nhỏ hơn sẽ hữu ích.

Video thành Phụ đề (Chuyển giọng nói thành văn bản)

Video thành Phụ đề (Chuyển giọng nói thành văn bản) là gì?

Cách sử dụng Video thành Phụ đề (Chuyển giọng nói thành văn bản)

Ví dụ

Tạo phụ đề SRT cho một cuộc phỏng vấn tiếng Hàn

Tạo phụ đề WebVTT cho video trên web

Dịch một bài giảng tiếng Nhật thành phụ đề tiếng Anh

Câu hỏi thường gặp

Công cụ liên quan

Trình chuyển đổi định dạng ảnh

Excel/CSV sang JSON

Trình xem EXIF & Xóa siêu dữ liệu

Trình tạo Favicon