Question 1

제 동영상이 서버로 업로드되나요?

Accepted Answer

아니요. 두 단계 모두 브라우저 안에서 100% 처리됩니다. ffmpeg(WebAssembly)가 오디오를 추출하고 Whisper가 기기에서 전사합니다. 미디어는 컴퓨터 밖으로 나가지 않습니다. 네트워크 요청은 공개 CDN에서 오픈소스 모델 가중치를 처음 한 번 받는 것뿐입니다.

Question 2

어떤 언어와 형식을 지원하나요?

Accepted Answer

Whisper는 다국어 모델로 한국어·영어·일본어·중국어·스페인어 등 90개 이상 언어를 자동 감지로 처리합니다. SRT·WebVTT·텍스트 대본으로 내보낼 수 있고, 다른 언어 음성을 영어 자막으로 번역할 수도 있습니다.

Question 3

어떤 모델을 골라야 하나요?

Accepted Answer

Small이 권장 기본값이며 한국어 등 CJK 언어에 쓸 만한 실사용 최소선입니다. Tiny는 가장 빠르고 가볍지만 정확도가 낮고, Turbo(large-v3-turbo)는 가장 정확하지만 수백 MB를 내려받고 WebGPU에서 가장 잘 돕니다. 모든 모델은 한 번 받은 뒤 캐시됩니다.

Question 4

처음 실행이 왜 느린가요?

Accepted Answer

모델을 처음 쓸 때 가중치를 한 번 내려받고(Tiny/Small은 수십 MB, Turbo는 더 큼) 이후에는 캐시를 씁니다. 전사 자체는 WebGPU를 지원하는 브라우저에서 훨씬 빠르며, GPU가 없으면 CPU로 폴백해 긴 영상은 시간이 걸릴 수 있습니다.

Question 5

자막을 그대로 게시해도 될 만큼 정확한가요?

Accepted Answer

자동 생성 자막은 훌륭한 초안이지만 완벽하지는 않습니다. 이름을 잘못 듣거나 음악·무음 구간에서 엉뚱한 텍스트가 붙기도 합니다. 그래서 모든 줄을 편집할 수 있게 했습니다. 특히 접근성 용도라면 내려받기 전에 대본을 검토하고 고치세요.

Question 6

파일 크기 제한이 있나요?

Accepted Answer

모든 처리가 브라우저 메모리에서 이뤄져 아주 크거나 긴 파일은 느리거나 메모리가 부족할 수 있습니다. 약 500MB가 넘으면 경고가, 2GB가 넘으면 차단이 표시됩니다. 긴 녹음은 짧게 자르거나 작은 모델을 쓰면 도움이 됩니다.

동영상 자막 생성기 (음성 인식)

동영상 자막 생성기 (음성 인식)란?

동영상 자막 생성기 (음성 인식) 사용법

예시

한국어 인터뷰를 SRT 파일로 자막화

웹 영상용 WebVTT 자막 만들기

일본어 강의를 영어 자막으로 번역

자주 묻는 질문

관련 도구

이미지 포맷 변환기

Excel/CSV를 JSON으로

EXIF 뷰어 · 메타데이터 제거기

파비콘 생성기