동영상 자막 생성기 (음성 인식)
동영상이나 오디오의 음성을 브라우저 안에서 Whisper로 인식해 SRT·VTT·텍스트 자막을 만듭니다. 업로드 없이 완전히 로컬로 처리합니다.
동영상 자막 생성기 (음성 인식) — 동영상 속 말소리를 업로드 없이 바로 쓸 수 있는 자막으로 바꿔 줍니다. MP4·MOV·WebM·MKV나 오디오 파일을 끌어다 놓으면 소리를 추출하고, OpenAI의 Whisper 음성 인식 모델을 브라우저 안에서 직접 돌려 시간 정보가 들어간 SRT·WebVTT·텍스트 자막을 만들어 편집하고 내려받을 수 있습니다. 오디오는 기기 밖으로 나가지 않으며, 공개 CDN에서 오픈소스 모델 가중치만 처음 한 번 받아오므로 녹음은 완전히 비공개로 유지됩니다.
동영상 자막 생성기 (음성 인식)란?
음성을 시간 정보가 있는 자막으로 바꿔 주는, 전 과정이 브라우저 안에서 돌아가는 무료·비공개 동영상 자막 생성기입니다. WebAssembly로 컴파일한 ffmpeg로 동영상에서 16kHz 오디오를 뽑고, 다국어 Whisper 모델을 (가능하면 WebGPU, 아니면 CPU로) 돌려 말소리를 인식하고 타임라인에 배치합니다. 크리에이터·편집자·학생·접근성 담당자가 인터뷰, 강의, 튜토리얼, 소셜 영상을 한국어·일본어·중국어를 포함한 90개 이상 언어로 자막화하고, 영상 편집용 SRT, 웹용 WebVTT, 깔끔한 텍스트 대본으로 내보내는 데 씁니다. 모델 크기로 속도와 정확도를 조절하고, 언어를 자동 감지하거나 직접 지정하고, 필요하면 말소리를 영어로 번역한 뒤, 내려받기 전에 내장 편집기에서 어떤 줄이든 고칠 수 있습니다.
동영상 자막 생성기 (음성 인식) 사용법
- 동영상이나 오디오 파일을 드롭존에 끌어다 놓거나 클릭해 선택하세요. 업로드는 없고 파일은 로컬에서만 읽습니다.
- 모델을 고르세요. 속도는 Tiny, 균형은 Small(권장), 최고 정확도는 Turbo입니다. 큰 모델은 처음 쓸 때 더 많은 데이터를 내려받습니다.
- 언어는 자동 감지로 두거나, 정확도를 높이려면 말하는 언어를 지정하세요. 다른 언어 음성을 영어 자막으로 만들려면 ‘영어로 번역’을 켜세요.
- ‘자막 생성’을 누르세요. 처음 한 번 모델을 내려받고(이후 캐시됨), 오디오 추출과 전사가 브라우저 안에서 진행됩니다.
- SRT·VTT·텍스트 중 형식을 고르고, 필요한 줄을 편집해 문구를 고치고, 영상에서 자막을 미리 본 뒤 자막 파일을 내려받으세요.
예시
한국어 인터뷰를 SRT 파일로 자막화
클립을 놓고 모델을 Small(더 깔끔한 한국어는 Turbo)로 둔 뒤 언어는 자동 감지로 두면, 영상 편집 프로그램에 넣을 수 있는 시간 정보가 담긴 .srt가 나옵니다.
웹 영상용 WebVTT 자막 만들기
자막을 생성한 뒤 형식을 VTT로 바꿔 .vtt 파일을 내려받으면, HTML5 <video>에 <track> 요소로 붙여 접근성 있는 재생을 지원할 수 있습니다.
일본어 강의를 영어 자막으로 번역
생성 전에 ‘영어로 번역’을 켜면 Whisper가 원본 음성 타이밍에 맞춘 영어 자막을 만들어 줍니다. 강연을 더 넓은 청중과 공유할 때 유용합니다.
자주 묻는 질문
- 제 동영상이 서버로 업로드되나요?
- 아니요. 두 단계 모두 브라우저 안에서 100% 처리됩니다. ffmpeg(WebAssembly)가 오디오를 추출하고 Whisper가 기기에서 전사합니다. 미디어는 컴퓨터 밖으로 나가지 않습니다. 네트워크 요청은 공개 CDN에서 오픈소스 모델 가중치를 처음 한 번 받는 것뿐입니다.
- 어떤 언어와 형식을 지원하나요?
- Whisper는 다국어 모델로 한국어·영어·일본어·중국어·스페인어 등 90개 이상 언어를 자동 감지로 처리합니다. SRT·WebVTT·텍스트 대본으로 내보낼 수 있고, 다른 언어 음성을 영어 자막으로 번역할 수도 있습니다.
- 어떤 모델을 골라야 하나요?
- Small이 권장 기본값이며 한국어 등 CJK 언어에 쓸 만한 실사용 최소선입니다. Tiny는 가장 빠르고 가볍지만 정확도가 낮고, Turbo(large-v3-turbo)는 가장 정확하지만 수백 MB를 내려받고 WebGPU에서 가장 잘 돕니다. 모든 모델은 한 번 받은 뒤 캐시됩니다.
- 처음 실행이 왜 느린가요?
- 모델을 처음 쓸 때 가중치를 한 번 내려받고(Tiny/Small은 수십 MB, Turbo는 더 큼) 이후에는 캐시를 씁니다. 전사 자체는 WebGPU를 지원하는 브라우저에서 훨씬 빠르며, GPU가 없으면 CPU로 폴백해 긴 영상은 시간이 걸릴 수 있습니다.
- 자막을 그대로 게시해도 될 만큼 정확한가요?
- 자동 생성 자막은 훌륭한 초안이지만 완벽하지는 않습니다. 이름을 잘못 듣거나 음악·무음 구간에서 엉뚱한 텍스트가 붙기도 합니다. 그래서 모든 줄을 편집할 수 있게 했습니다. 특히 접근성 용도라면 내려받기 전에 대본을 검토하고 고치세요.
- 파일 크기 제한이 있나요?
- 모든 처리가 브라우저 메모리에서 이뤄져 아주 크거나 긴 파일은 느리거나 메모리가 부족할 수 있습니다. 약 500MB가 넘으면 경고가, 2GB가 넘으면 차단이 표시됩니다. 긴 녹음은 짧게 자르거나 작은 모델을 쓰면 도움이 됩니다.
관련 도구
이미지 포맷 변환기
이미지를 AVIF, WebP, PNG, JPEG, BMP, ICO, 단일 프레임 GIF 사이에서 브라우저 안에서 서로 변환합니다.
Excel/CSV를 JSON으로
Excel이나 CSV 표를 브라우저에서 JSON 또는 CSV로 변환하세요.
EXIF 뷰어 · 메타데이터 제거기
이미지의 EXIF 메타데이터(카메라, 렌즈, 날짜, GPS 위치)를 확인하고 제거한 깨끗한 사본을 내려받으세요 — 모두 브라우저 안에서.
파비콘 생성기
브라우저에서 완전한 파비콘 패키지를 생성합니다: 진짜 다중 해상도 favicon.ico, 16~512 px PNG, site.webmanifest, HTML 스니펫.