শব্দ ব্যবহার করে ভিডিও তৈরি

শব্দ ব্যবহার করে ইমেজ তৈরি করতে কৃত্রিম বুদ্ধিমত্তার দিন দিন উৎকর্ষ সাধন হচ্ছে। আর এর ব্যবহার হচ্ছে সবার জন্য উন্মুক্ত ডিএএলএল-ই ২ এবং স্টেবল ডিফিউশন নামে দুটি এআই ইমেজ জেনারেটরে। সম্প্রতি মেটার গবেষকরা এআই-এর এই প্রযুক্তিকে আরও এক ধাপ এগিয়ে নিয়ে গিয়েছে। তারা কিছু টেক্সট প্রম্পট থেকে ভিডিও তৈরি করার কাজ করছে এই প্রযুক্তি ব্যবহার করে।

গবেষণার এমন একটি ভিডিও সম্প্রতি প্রকাশ করেছেন মেটার প্রধান মার্ক জুকারবার্গ। এটাকে বলা হচ্ছে ‘মেক-অ্যা-ভিডিও’। এটি টেক্সট প্রম্পট ব্যবহার করে বিশ সেকেন্ডের একটি ভিডিও তৈরি করছে। প্রম্পটের মধ্যে রয়েছে, ‘একটি টেডি বিয়ার নিজের পোট্রেট আঁকছে’, ‘একটি নভোযান মঙ্গলে অবতরণ করছে’  এবং  ‘একটি রোবট সমুদ্রের ঢেউ এর উপরে সার্ফিং করছে’।

প্রতিটি ভিডিও অল্প কয়েক সেকেন্ড দৈর্ঘ্যের। প্রম্পটে যেভাবে সাজেস্ট করা হবে সেভাবে ভিডিওগুলো চলবে। অল্প রেজুলিউশনে হালকা ঝাঁকির মতো স্টাইলে ভিডিওগুলো চলবে। এই প্রযুক্তিটি ব্যাপকভাবে ছড়ালে এটাকে আরও বিভিন্নভাবে কাজে লাগানো যাবে বলে মন্তব্য সংবাদ মাধ্যম সিএনএস’র। তবে সমস্যা হলো এটা দিয়ে ভুয়া তথ্যের ভিডিও বানানো যাবে।

ফেসবুকের একটি পোস্টে জুকারবার্গ দেখান কিভাবে কিছু শব্দ দিয়ে একটি ভিডিও বানানো যায়। তিনি বলেন, এভাবে ইমেজের চাইতে ভিডিও বানানো বেশ কঠিন।

এদিকে এআই সিস্টেমের মাধ্যমে বাক্য থেকে ইমেজ তৈরির ক্ষেত্রে গবেষকরা দেখিয়েছেন কিভাবে ইন্টারনেট থেকে উপাত্ত নিয়ে এআই মডেল প্রশিক্ষিত হয়। সেক্ষেত্রে অশ্লীল শব্দের মিশ্রণ বিষয়টিকে ভিন্ন দিকে প্রবাহিত করে। এক্ষেত্রে বিভিন্ন ফিল্টার ব্যবহার করা হলেও বিষয়টি প্রশ্নবিদ্ধ থেকেই যায়।