वीडियो से सबटाइटल (स्पीच टू टेक्स्ट)
किसी भी वीडियो या ऑडियो की आवाज़ को अपने ब्राउज़र में ही Whisper से पहचानकर SRT, VTT या सादे-टेक्स्ट सबटाइटल बनाएं — बिना कुछ भी सर्वर पर अपलोड किए।
वीडियो से सबटाइटल (स्पीच टू टेक्स्ट) — वीडियो में बोली गई आवाज़ को बिना कुछ अपलोड किए तुरंत इस्तेमाल लायक सबटाइटल में बदलें। MP4, MOV, WebM, MKV या कोई ऑडियो फ़ाइल यहाँ छोड़ें, और यह टूल आवाज़ निकालता है, OpenAI का Whisper स्पीच-रिकग्निशन मॉडल सीधे आपके ब्राउज़र में चलाता है, और टाइमस्टैम्प वाले SRT, WebVTT या सादे-टेक्स्ट कैप्शन बनाता है जिन्हें आप संपादित और डाउनलोड कर सकते हैं। आवाज़ कभी आपके डिवाइस से बाहर नहीं जाती — सिर्फ़ ओपन-सोर्स मॉडल के वेट एक बार किसी सार्वजनिक CDN से लिए जाते हैं — इसलिए आपकी रिकॉर्डिंग पूरी तरह निजी रहती है।
वीडियो से सबटाइटल (स्पीच टू टेक्स्ट) क्या है?
एक मुफ़्त और निजी वीडियो-से-सबटाइटल जेनरेटर जो आवाज़ को पूरी तरह आपके ब्राउज़र में ही टाइमस्टैम्प वाले कैप्शन में बदल देता है। यह WebAssembly में कम्पाइल किए गए ffmpeg से वीडियो में से 16 kHz ऑडियो निकालता है, फिर बहुभाषी Whisper मॉडल (उपलब्ध हो तो WebGPU से, वरना CPU से) चलाकर बोली को पहचानता है और उसे टाइमलाइन पर रखता है। क्रिएटर, एडिटर, विद्यार्थी और एक्सेसिबिलिटी टीमें इसका इस्तेमाल इंटरव्यू, लेक्चर, ट्यूटोरियल और सोशल क्लिप को 90+ भाषाओं में — हिंदी, कोरियन, जापानी और चीनी सहित — कैप्शन करने और वीडियो एडिटर के लिए SRT, वेब के लिए WebVTT, या साफ़ टेक्स्ट ट्रांसक्रिप्ट में एक्सपोर्ट करने के लिए करती हैं। रफ़्तार और सटीकता के बीच संतुलन के लिए मॉडल का आकार चुनें, भाषा अपने-आप पहचानें या खुद तय करें, चाहें तो बोली को अंग्रेज़ी में अनुवाद करें, और डाउनलोड करने से पहले बिल्ट-इन एडिटर में कोई भी लाइन ठीक करें।
वीडियो से सबटाइटल (स्पीच टू टेक्स्ट) का उपयोग कैसे करें
- वीडियो या ऑडियो फ़ाइल को ड्रॉपज़ोन पर छोड़ें, या चुनने के लिए क्लिक करें। कुछ भी अपलोड नहीं होता — फ़ाइल स्थानीय रूप से ही पढ़ी जाती है।
- मॉडल चुनें: रफ़्तार के लिए Tiny, संतुलन के लिए Small (अनुशंसित), या सबसे अच्छी सटीकता के लिए Turbo। बड़े मॉडल पहली बार ज़्यादा डेटा डाउनलोड करते हैं।
- भाषा को अपने-आप पहचान पर रहने दें, या सटीकता बढ़ाने के लिए बोली जाने वाली भाषा चुनें। दूसरी भाषा की बोली से अंग्रेज़ी सबटाइटल चाहिए तो ‘अंग्रेज़ी में अनुवाद’ चालू करें।
- ‘सबटाइटल बनाएं’ दबाएं। पहली बार मॉडल एक बार डाउनलोड होता है (फिर कैश हो जाता है); आवाज़ आपके ब्राउज़र में ही निकाली और ट्रांसक्राइब की जाती है।
- SRT, VTT या टेक्स्ट चुनें, शब्द ठीक करने के लिए कोई भी लाइन संपादित करें, वीडियो पर कैप्शन का पूर्वावलोकन देखें, फिर सबटाइटल फ़ाइल डाउनलोड करें।
उदाहरण
कोरियन इंटरव्यू का SRT फ़ाइल में कैप्शन
क्लिप छोड़ें, मॉडल को Small पर रखें (साफ़ कोरियन के लिए Turbo), भाषा को अपने-आप पहचान पर रहने दें, और अपने वीडियो एडिटर में लोड करने के लिए टाइमस्टैम्प वाली .srt एक्सपोर्ट करें।
वेब वीडियो के लिए WebVTT कैप्शन बनाएं
सबटाइटल बनाएं, फ़ॉर्मैट को VTT में बदलें, और एक .vtt फ़ाइल डाउनलोड करें जिसे आप सुलभ प्लेबैक के लिए HTML5 <video> में <track> एलिमेंट के साथ जोड़ सकते हैं।
जापानी लेक्चर को अंग्रेज़ी सबटाइटल में अनुवाद करें
बनाने से पहले ‘अंग्रेज़ी में अनुवाद’ चालू करें, और Whisper मूल बोली के समय पर सधे अंग्रेज़ी कैप्शन बनाता है — बातचीत को ज़्यादा बड़े दर्शकों के साथ साझा करने में उपयोगी।
अक्सर पूछे जाने वाले सवाल
- क्या मेरा वीडियो किसी सर्वर पर अपलोड होता है?
- नहीं। दोनों चरण 100% आपके ब्राउज़र में चलते हैं: ffmpeg (WebAssembly) आवाज़ निकालता है और Whisper उसे आपके डिवाइस पर ट्रांसक्राइब करता है। आपका मीडिया कभी आपके कंप्यूटर से बाहर नहीं जाता। एकमात्र नेटवर्क अनुरोध किसी सार्वजनिक CDN से ओपन-सोर्स मॉडल वेट का एक बार का डाउनलोड है।
- कौन-सी भाषाएं और फ़ॉर्मैट समर्थित हैं?
- Whisper बहुभाषी है और अपने-आप पहचान के साथ 90+ भाषाओं को संभालता है, जिनमें हिंदी, कोरियन, अंग्रेज़ी, जापानी, चीनी, स्पेनिश और कई अन्य शामिल हैं। आप SRT, WebVTT, या सादा-टेक्स्ट ट्रांसक्रिप्ट एक्सपोर्ट कर सकते हैं, और चाहें तो गैर-अंग्रेज़ी बोली को अंग्रेज़ी सबटाइटल में अनुवाद कर सकते हैं।
- मुझे कौन-सा मॉडल चुनना चाहिए?
- Small अनुशंसित डिफ़ॉल्ट है और अच्छी कोरियन तथा अन्य CJK भाषाओं के लिए व्यावहारिक न्यूनतम है। Tiny सबसे तेज़ और हल्का है लेकिन कम सटीक; Turbo (large-v3-turbo) सबसे सटीक है लेकिन कई सौ मेगाबाइट डाउनलोड करता है और WebGPU के साथ सबसे अच्छा चलता है। सभी मॉडल एक बार डाउनलोड होकर कैश हो जाते हैं।
- पहली बार चलाने में देर क्यों लगती है?
- किसी मॉडल को पहली बार इस्तेमाल करने पर उसके वेट एक बार डाउनलोड होते हैं (Tiny/Small के लिए कुछ दसियों MB, Turbo के लिए इससे ज़्यादा) और फिर अगली बार के लिए कैश हो जाते हैं। ट्रांसक्रिप्शन खुद WebGPU-सक्षम ब्राउज़रों में कहीं ज़्यादा तेज़ होता है; GPU न हो तो यह CPU पर लौट आता है और लंबे वीडियो में समय लग सकता है।
- क्या कैप्शन प्रकाशित करने लायक सटीक होते हैं?
- अपने-आप बने कैप्शन एक मज़बूत पहला मसौदा होते हैं पर पूर्ण नहीं — ये नाम गलत सुन सकते हैं या संगीत तथा खामोशी पर बेतुका टेक्स्ट जोड़ सकते हैं। इसीलिए यहाँ हर लाइन संपादन योग्य है: डाउनलोड करने से पहले ट्रांसक्रिप्ट की जांच करें और ठीक करें, खासकर एक्सेसिबिलिटी के लिए।
- क्या फ़ाइल आकार की कोई सीमा है?
- सब कुछ आपके ब्राउज़र की मेमोरी में चलता है, इसलिए बहुत बड़ी या बहुत लंबी फ़ाइलें धीमी हो सकती हैं या मेमोरी खत्म कर सकती हैं। लगभग 500 MB से बड़ी फ़ाइलों पर चेतावनी दिखती है और 2 GB से बड़ी फ़ाइलें रोक दी जाती हैं। लंबी रिकॉर्डिंग के लिए छोटी क्लिप या छोटा मॉडल मदद करता है।
संबंधित टूल
इमेज फ़ॉर्मेट कन्वर्टर
इमेज को AVIF, WebP, PNG, JPEG, BMP, ICO और सिंगल-फ़्रेम GIF के बीच पूरी तरह अपने ब्राउज़र में ही बदलें।
Excel/CSV से JSON
Excel या CSV स्प्रेडशीट को सीधे अपने ब्राउज़र में JSON या CSV में बदलें।
EXIF व्यूअर और मेटाडेटा रिमूवर
किसी छवि का EXIF मेटाडेटा देखें — कैमरा, लेंस, खींचने की तारीख और GPS स्थान — फिर हर टैग हटाकर एक साफ़ प्रति डाउनलोड करें, सब कुछ आपके ब्राउज़र में।
फ़ेविकॉन जनरेटर
अपने ब्राउज़र में एक पूरा favicon पैकेज बनाएं: असली मल्टी-रिज़ॉल्यूशन favicon.ico, 16 से 512 px के PNG, एक site.webmanifest और एक HTML स्निपेट।