ভিডিও থেকে সাবটাইটেল (স্পিচ টু টেক্সট)

যেকোনো ভিডিও বা অডিওর কথা আপনার ব্রাউজারেই Whisper দিয়ে শনাক্ত করে SRT, VTT বা সাধারণ-টেক্সট সাবটাইটেল তৈরি করুন — কিছুই সার্ভারে আপলোড না করে।

টুল লোড হচ্ছে…

ভিডিও থেকে সাবটাইটেল (স্পিচ টু টেক্সট)ভিডিওর কথা বলা অংশকে কিছু আপলোড না করেই ব্যবহার-উপযোগী সাবটাইটেলে বদলে ফেলুন। একটি MP4, MOV, WebM, MKV বা অডিও ফাইল এখানে ছেড়ে দিন, আর এই টুলটি শব্দ বের করে আনে, OpenAI-এর Whisper স্পিচ-রিকগনিশন মডেল সরাসরি আপনার ব্রাউজারে চালায়, এবং টাইমস্ট্যাম্প-সহ SRT, WebVTT বা সাধারণ-টেক্সট ক্যাপশন তৈরি করে যা আপনি সম্পাদনা ও ডাউনলোড করতে পারেন। অডিও কখনো আপনার ডিভাইস ছেড়ে যায় না — শুধু ওপেন-সোর্স মডেলের ওয়েট একবার একটি পাবলিক CDN থেকে নেওয়া হয় — তাই আপনার রেকর্ডিং সম্পূর্ণ ব্যক্তিগত থাকে।

ভিডিও থেকে সাবটাইটেল (স্পিচ টু টেক্সট) কী?

একটি বিনামূল্যের ও ব্যক্তিগত ভিডিও-থেকে-সাবটাইটেল জেনারেটর, যা কথাকে সম্পূর্ণভাবে আপনার ব্রাউজারেই টাইমস্ট্যাম্প-সহ ক্যাপশনে রূপান্তর করে। এটি WebAssembly-তে কম্পাইল করা ffmpeg দিয়ে ভিডিও থেকে 16 kHz অডিও বের করে, তারপর বহুভাষিক Whisper মডেল (সম্ভব হলে WebGPU দিয়ে, নাহলে CPU দিয়ে) চালিয়ে কথা শনাক্ত করে টাইমলাইনে বসায়। নির্মাতা, সম্পাদক, শিক্ষার্থী ও অ্যাক্সেসিবিলিটি দলগুলো এটি দিয়ে সাক্ষাৎকার, বক্তৃতা, টিউটোরিয়াল ও সোশ্যাল ক্লিপে 90+ ভাষায় — বাংলা, কোরিয়ান, জাপানি ও চীনা সহ — ক্যাপশন যোগ করে এবং ভিডিও সম্পাদকের জন্য SRT, ওয়েবের জন্য WebVTT, বা পরিষ্কার টেক্সট ট্রান্সক্রিপ্ট রপ্তানি করে। গতি ও নির্ভুলতার ভারসাম্যের জন্য মডেলের আকার বেছে নিন, ভাষা স্বয়ংক্রিয়ভাবে শনাক্ত করুন বা নিজে ঠিক করুন, প্রয়োজনে কথাকে ইংরেজিতে অনুবাদ করুন, এবং ডাউনলোডের আগে বিল্ট-ইন এডিটরে যেকোনো লাইন ঠিক করুন।

ভিডিও থেকে সাবটাইটেল (স্পিচ টু টেক্সট) কীভাবে ব্যবহার করবেন

  1. একটি ভিডিও বা অডিও ফাইল ড্রপজোনে ছেড়ে দিন, অথবা বেছে নিতে ক্লিক করুন। কিছুই আপলোড হয় না — ফাইলটি স্থানীয়ভাবেই পড়া হয়।
  2. একটি মডেল বেছে নিন: গতির জন্য Tiny, ভারসাম্যের জন্য Small (প্রস্তাবিত), বা সেরা নির্ভুলতার জন্য Turbo। বড় মডেল প্রথমবার বেশি ডেটা ডাউনলোড করে।
  3. ভাষা স্বয়ংক্রিয় শনাক্তকরণে রেখে দিন, অথবা নির্ভুলতা বাড়াতে কথ্য ভাষা বেছে নিন। অন্য ভাষার কথা থেকে ইংরেজি সাবটাইটেল চাইলে ‘ইংরেজিতে অনুবাদ’ চালু করুন।
  4. ‘সাবটাইটেল তৈরি করুন’ চাপুন। প্রথমবার মডেল একবার ডাউনলোড হয় (এরপর ক্যাশ হয়ে থাকে); অডিও বের করা ও ট্রান্সক্রাইব করা আপনার ব্রাউজারেই হয়।
  5. SRT, VTT বা টেক্সট বেছে নিন, শব্দ ঠিক করতে যেকোনো লাইন সম্পাদনা করুন, ভিডিওতে ক্যাপশন প্রিভিউ দেখুন, তারপর সাবটাইটেল ফাইলটি ডাউনলোড করুন।

উদাহরণ

কোরিয়ান সাক্ষাৎকারকে SRT ফাইলে ক্যাপশন করুন

ক্লিপটি ছেড়ে দিন, মডেল Small-এ রাখুন (আরও পরিষ্কার কোরিয়ানের জন্য Turbo), ভাষা স্বয়ংক্রিয় শনাক্তকরণে রাখুন, এবং আপনার ভিডিও এডিটরে লোড করার জন্য টাইমস্ট্যাম্প-সহ একটি .srt রপ্তানি করুন।

ওয়েব ভিডিওর জন্য WebVTT ক্যাপশন তৈরি করুন

সাবটাইটেল তৈরি করুন, ফরম্যাট VTT-তে বদলান, এবং একটি .vtt ফাইল ডাউনলোড করুন যা আপনি সুলভ প্লেব্যাকের জন্য একটি HTML5 <video>-তে <track> এলিমেন্ট দিয়ে যুক্ত করতে পারেন।

একটি জাপানি বক্তৃতাকে ইংরেজি সাবটাইটেলে অনুবাদ করুন

তৈরি করার আগে ‘ইংরেজিতে অনুবাদ’ চালু করুন, আর Whisper মূল কথার সময় অনুযায়ী ইংরেজি ক্যাপশন তৈরি করে — বক্তৃতা বৃহত্তর দর্শকের সঙ্গে শেয়ার করতে সুবিধাজনক।

সচরাচর জিজ্ঞাসিত প্রশ্ন

আমার ভিডিও কি কোনো সার্ভারে আপলোড হয়?
না। দুটি ধাপই ১০০% আপনার ব্রাউজারে চলে: ffmpeg (WebAssembly) অডিও বের করে এবং Whisper আপনার ডিভাইসেই তা ট্রান্সক্রাইব করে। আপনার মিডিয়া কখনো আপনার কম্পিউটার ছেড়ে যায় না। একমাত্র নেটওয়ার্ক অনুরোধ হলো একটি পাবলিক CDN থেকে ওপেন-সোর্স মডেল ওয়েটের একবারের ডাউনলোড।
কোন ভাষা ও ফরম্যাট সমর্থিত?
Whisper বহুভাষিক এবং স্বয়ংক্রিয় শনাক্তকরণসহ 90+ ভাষা সামলায়, যার মধ্যে আছে বাংলা, কোরিয়ান, ইংরেজি, জাপানি, চীনা, স্প্যানিশ ও আরও অনেক। আপনি SRT, WebVTT, বা সাধারণ-টেক্সট ট্রান্সক্রিপ্ট রপ্তানি করতে পারেন, এবং চাইলে অ-ইংরেজি কথাকে ইংরেজি সাবটাইটেলে অনুবাদ করতে পারেন।
আমার কোন মডেল বেছে নেওয়া উচিত?
Small হলো প্রস্তাবিত ডিফল্ট এবং ভালো কোরিয়ান ও অন্যান্য CJK ভাষার জন্য বাস্তবসম্মত ন্যূনতম। Tiny সবচেয়ে দ্রুত ও হালকা কিন্তু কম নির্ভুল; Turbo (large-v3-turbo) সবচেয়ে নির্ভুল কিন্তু কয়েকশো মেগাবাইট ডাউনলোড করে এবং WebGPU-তে সবচেয়ে ভালো চলে। সব মডেল একবার ডাউনলোড হয়ে ক্যাশ হয়ে থাকে।
প্রথমবার চালাতে ধীর কেন?
কোনো মডেল প্রথমবার ব্যবহার করলে তার ওয়েট একবার ডাউনলোড হয় (Tiny/Small-এর জন্য কয়েক দশ MB, Turbo-র জন্য আরও বেশি) এবং পরের বারের জন্য ক্যাশ হয়ে যায়। ট্রান্সক্রিপশন নিজে WebGPU-সমর্থিত ব্রাউজারে অনেক দ্রুত হয়; GPU না থাকলে এটি CPU-তে ফিরে আসে এবং দীর্ঘ ভিডিওতে সময় লাগতে পারে।
ক্যাপশন কি প্রকাশ করার মতো যথেষ্ট নির্ভুল?
স্বয়ংক্রিয়ভাবে তৈরি ক্যাপশন একটি শক্তিশালী প্রথম খসড়া, তবে নিখুঁত নয় — এগুলো নাম ভুল শুনতে পারে বা সঙ্গীত ও নীরবতায় অবাঞ্ছিত টেক্সট জুড়ে দিতে পারে। এ কারণেই এখানে প্রতিটি লাইন সম্পাদনযোগ্য: ডাউনলোডের আগে ট্রান্সক্রিপ্ট যাচাই করে ঠিক করুন, বিশেষত অ্যাক্সেসিবিলিটির জন্য।
ফাইলের আকারের কি কোনো সীমা আছে?
সবকিছু আপনার ব্রাউজারের মেমরিতে চলে, তাই খুব বড় বা খুব দীর্ঘ ফাইল ধীর হতে পারে বা মেমরি ফুরিয়ে যেতে পারে। প্রায় 500 MB-র বেশি ফাইলে সতর্কবার্তা দেখায় এবং 2 GB-র বেশি ফাইল আটকে দেওয়া হয়। দীর্ঘ রেকর্ডিংয়ের জন্য ছোট ক্লিপ বা ছোট মডেল সাহায্য করে।

সম্পর্কিত টুল