X
সোমবার, ২৯ এপ্রিল ২০২৪
১৬ বৈশাখ ১৪৩১

ডাটা সায়েন্সের উত্থান

ড. হাসিনুর রহমান খান
১৩ ডিসেম্বর ২০২৩, ১৭:৫০আপডেট : ১৩ ডিসেম্বর ২০২৩, ১৭:৫০

ডাটা মানে কী? প্রথমে এই বিষয়ে পরিষ্কার ধারণা রাখা চাই। ডাটার বাংলা অর্থ হলো উপাত্ত বা তথ্য। তাই ডাটা সায়েন্স মানে দাঁড়ালো উপাত্তবিজ্ঞান বা তথ্যবিজ্ঞান। ইনফরমেশনকে অনেকে ‘তথ্য’ বলে মনে করেন। ফলে তথ্যবিজ্ঞানকে অনেকে ইনফরমেশন সায়েন্স বলতে চাইবেন। তথ্য গ্রন্থাগার বা তথ্য বিভাগ ইত্যাদি নামে অনেক প্রতিষ্ঠানে বা বিশ্ববিদ্যালয়ে বিদ্যমান কোনও প্রতিষ্ঠানের শাখা বা স্নাতক পর্যায়ে পড়াশোনার জন্য বিভাগ রয়েছে। যদিও ইনফরমেশনের সঠিক সংজ্ঞা বিজ্ঞানে বা পরিসংখ্যানে বিশ্বব্যাপী একটু অন্য রকম করে বোঝানো হয়।

তথ্য বা উপাত্ত হতে বিশ্লেষণ কিংবা পর্যালোচনা করে যে অর্থ কিংবা ধারণা অর্জিত হয়, তাকেই ইনফরমেশন বলা হয়। ফলে ব্যক্তিগতভাবে ডাটা সায়েন্সকে তথ্য বিজ্ঞান বা উপাত্তবিজ্ঞান বলার পরিবর্তে ডাটা সায়েন্স নামে বলতেই বেশি স্বাচ্ছন্দ্যবোধ করি। এবার আসি ডাটা এবং বিজ্ঞান বলতে কী বুঝি।

ডাটা হলো কতগুলো উদ্দেশ্যহীন নির্দেশনা, যা বিভিন্ন উদ্দেশ্যে সংগৃহীত, প্রক্রিয়াজাত এবং সংরক্ষিত হয়। উদ্দেশ্যহীন নির্দেশনাগুলো কোনও চলকের বিপরীতে সংখ্যা, পাঠ, চিত্র, অডিও, ভিডিও বা অন্যান্য ডিজিটাল রূপে থাকতে পারে। সংক্ষেপে বললে চলকের যেকোনও মানকেই ডাটা বলা হয়। ডাটা সাধারণত গোছালো থাকে, কখনও কখনও অগোছালো কিংবা সেমিস্ট্রাকচার অবস্থায় থাকে। কিন্তু যখন এটি প্রক্রিয়াজাত, বিশ্লেষণ এবং ব্যাখ্যা করা হয়, তখন এটি অর্থপূর্ণ এবং কার্যকরী তথ্যে পরিণত হয়।

বিজ্ঞানের সংজ্ঞা হলো প্রণালীবদ্ধ অধ্যয়ন এবং লব্ধজ্ঞান, যা পর্যবেক্ষণ, পরীক্ষা এবং পরীক্ষণযোগ্য অনুমানের মাধ্যমে অর্জন করা হয়। যা স্বতঃসিদ্ধ প্রমাণ সংগ্রহ, তথ্য বিশ্লেষণ এবং তার্কিক যুক্তি ব্যবহার করে অনুমিত ঘটনাগুলো ব্যাখ্যা এবং পূর্বাভাস করতে আত্মবিশ্বাসী করে তোলে।

এবার ডাটা সায়েন্সের সম্পর্কে কিছুটা হলেও ধারণা পাওয়া গেছে। তবে ডাটা সায়েন্সের প্রকৃত সংজ্ঞা এভাবে কেউ বুঝলে তা অসম্পূর্ণ থেকে যাবে। কেননা, ডাটা সায়েন্সের প্রকৃত সংজ্ঞা আভিধানিক অর্থে অনেকটাই ভিন্ন এবং সম্প্রসারিত। চলুন তাহলে ডাটা সায়েন্সের ব্যবহারিক সংজ্ঞাটা জেনে নিই।

ডাটা সায়েন্স হলো একেবারেই আধুনিক বিজ্ঞানের একটি শাখা, যা ডাটা থেকে প্রাথমিকভাবে অর্থ কিংবা জ্ঞান তৈরি করে। এটি একটি অনুসন্ধান ক্ষেত্র, যেখানে বিভিন্ন রকমের ডাটা পরিসংখ্যান, মডেলিং, মেশিন লার্নিং, এবং কম্পিউটিশনাল পাওয়ার ব্যবহার করে বিশ্লেষণ এবং উপস্থাপন করা হয়। ডাটা সায়েন্স সাধারণত ডাটা থেকে অনুসন্ধানী বা অনুমিত প্রশ্ন তৈরি করে এবং ডাটা থেকে চিত্তাকর্ষীয়ভাবে লুকিয়ে থাকা গবেষণা এবং বিশ্লেষণযোগ্য ধারণা তৈরি করে। এটি বিভিন্ন ক্ষেত্রে ব্যবহৃত হয়, যেমন ব্যবসা-বাণিজ্য পরিচালনায়, চিকিৎসায়, সামাজিক বিজ্ঞানে, নিরাপত্তা ও অভিযান্ত্রিকী বিজ্ঞানে, জনস্বাস্থ্যে, পরিবেশ বিজ্ঞানে, ইউটিলিটি প্রতিষ্ঠানে এবং অন্যান্য ক্ষেত্রে।

ডাটা সায়েন্সের যাত্রা শুরু হয়েছিল ১৯০০ শতাব্দীর মাঝামাঝি, যখন ডাটা প্রক্রিয়া বিজ্ঞানের নেতৃত্বে একটি নতুন অধ্যায় পায়। প্রথমেই সামাজিক বিজ্ঞানে সমস্যা সমাধানের জন্য ডাটা প্রক্রিয়া ব্যবহৃত হতো। এরপর সংখ্যাতাত্ত্বিক এবং পরিসংখ্যানের ক্ষেত্রে ডাটা ব্যবহার হয়। প্রযুক্তিগত উন্নয়নের সঙ্গে সঙ্গে ডাটা প্রক্রিয়া, সংগঠন, নির্ভরযোগ্যতা, বিশ্বাসযোগ্যতা ও তার প্রভাবও বৃদ্ধি পায়।

পরবর্তীতে ১৯৮০-এর দশকে ডাটা সায়েন্সের গুরুত্ব এবং চাহিদা ধারাবাহিকভাবে প্রচণ্ড গতিতে বৃদ্ধি পায়। কম্পিউটার, পরিসংখ্যান ও তথ্যবিজ্ঞানের সমন্বয়ে ডাটা প্রক্রিয়া এবং প্রদর্শনের নতুন পদক্ষেপ নেওয়া হয়। মেশিন লার্নিং অ্যালগরিদম এবং কম্পিউটার ভিশনের আশাতীত উন্নতিতে ডাটা সায়েন্স ক্ষেত্রটি একটি নতুন গতি পায়। এভাবেই ডাটা সায়েন্স পরিচালিত হয় এবং সামগ্রিকভাবে ডাটা প্রক্রিয়া ও বিশ্লেষণের ব্যবহার বিজ্ঞান, প্রযুক্তি এবং বিজ্ঞানের অন্যান্য শাখার সঙ্গে সংযোগ স্থাপন করে।

পরিসংখ্যান এবং পরিসংখ্যানিক মডেল ব্যবহার, ডাটা সায়েন্সের ক্ষেত্রে একক এবং মৌলিকভাবে ব্যবহৃত হয়েছে। ডাটা সায়েন্স পরিসংখ্যান দিয়ে শুরু হয়েছিল এবং এর ওপর নির্ভর করে কৌশলগত বুদ্ধিমত্তা, মেশিন লার্নিং, এবং ইন্টারনেট অব থিংস ইত্যাদির ধারণা ও প্র্যাকটিস সংযুক্ত হয়েছে। প্রথমে ক্রয়-বিক্রয়ের সংরক্ষিত তথ্যের বৈশিষ্ট্য, আচরণ এবং প্রবণতা দ্বারা সামনে এসেছে এবং সেগুলো আরও বেশি বেশি পরিমাণে সংগ্রহ এবং সংরক্ষণ করছে।

ইন্টারনেটের, ইন্টারনেট অফ থিংসের এবং টেকনোলজিভিত্তিক প্রতিষ্ঠানগুলোর প্রসারের সঙ্গে সঙ্গে প্রতিষ্ঠানগুলো অতিরিক্ত পরিমাণের ডাটা তৈরি এবং সংগ্রহ করেছে, যা মূলত বিগ ডেটা হিসাবে পরিচিত। লাভ, বৃদ্ধি এবং ভালো ফল আসায় ব্যবসা-বাণিজ্যে প্রভূত উন্নতি হতে থাকে। ব্যবসার দ্বার খোলার পর থেকে বিগ ডেটা ব্যবহারকারীদের আরও কিছু ক্ষেত্রে, যেমন- চিকিৎসা, প্রকৌশল এবং সামাজিক বিজ্ঞানে  তার প্রয়োগ সম্ভব হয়।

ক্রমান্বয়ে পরিসংখ্যানের প্রায়োগিক দিকটি বিকশিত হতে থাকে এবং নানা বৈচিত্র্যপূর্ণ অধ্যায়ের তৈরি হয়, যাকে এক কথায় ফলিত পরিসংখ্যান বলা যায়। বলা চলে এই ফলিত পরিসংখ্যানই ডাটা সায়েন্সের প্রাথমিক ভিত্তির একটি শাখা। যেটা উত্তরোত্তর কম্পিটিশনাল বা তথ্য বিশ্লেষণের সফটওয়্যারের ক্রমবর্ধমান সক্ষমতার ওপর নির্ভর করে বিজ্ঞানে একটি নতুন শাখা, ডাটা সাইন্স হিসেবে পরিচিত লাভ করে।

একজন সত্যিকারের ডাটা বিজ্ঞানী, সাধারণ পরিসংখ্যানিক বিজ্ঞানীর বিপরীতে, তথ্য বিশ্লেষণের সফ্টওয়্যার আর্কিটেকচারের ওপর সবসময় একটি ভালো ধারণা রাখে এবং একাধিক প্রোগ্রামিং ভাষা জানে। ডাটা বিজ্ঞানীরা সমস্যা সংজ্ঞায়িত করে, তথ্যের মূল উৎসগুলো চিহ্নিত করে এবং প্রয়োজনীয় ডাটা সংগ্রহ এবং শনাক্তকরণের জন্য কাঠামো নির্মাণ করে। সফ্টওয়্যার সাধারণত ডাটা সংগ্রহ, প্রক্রিয়াকরণ এবং মডেল করতে ব্যবহার করা হয়। তারা ডাটা সায়েন্সের নীতিগুলো এবং সম্পর্কিত উপ-ক্ষেত্রগুলো ব্যবহার করে তথ্য সম্পদগুলোর গভীরতর বিশ্লেষণ করতে পারেন।

ডাটা সায়েন্সের ক্রমশ উত্থান এবং ডাটা ম্যানেজমেন্ট উন্নতির বিভিন্ন সময়রেখা আছে, যাদের মধ্যে কিছু গুরুত্বপূর্ণ বিষয় এখানে উল্লেখ করা হয়েছে। তবে ডাটা নির্ণয়ের মান বোঝার ক্ষেত্রে একটি দীর্ঘ ইতিহাস রয়েছে। এটি বছর বছর ধরে ধারাবাহিকভাবে বিজ্ঞানীদের, পরিসংখ্যানবিদের, লাইব্রেরিয়ানদের, কম্পিউটার বিজ্ঞানীদের এবং অন্যদের মধ্যে আলোচনা হয়েছে। নিম্নলিখিত সময়রেখা ডাটা সায়েন্স শব্দের উন্নতি এবং ব্যবহার, এর সংজ্ঞা নির্ধারণ করে।

১৯৬২ সালে, জন ডবলিউ টুকি একটি প্রবন্ধ লিখেন, যার শিরোনাম ছিল ‘ডাটা বিশ্লেষণের ভবিষ্যৎ’। সেখানে তিনি পরিসংখ্যানের জগতে একটি সরাসরি পরিবর্তন বর্ণনা করে বলেন, “…গাণিতিক পরিসংখ্যানের উন্নতি যখন আমি দেখছিলাম, আমি চিন্তা করেছিলাম এবং সন্দেহ করেছিলাম... আমার মূল আগ্রহ ডাটা বিশ্লেষণে নিহিত...”।

টুকি পরিসংখ্যান এবং কম্পিউটারের সংযোগের কথা উল্লেখ করছেন যখন হাতে কাজ করার পরিবর্তে কম্পিউটারগুলো প্রথমবারের মতো গাণিতিক সমস্যা সমাধান এবং পরিসংখ্যান সঙ্গে কাজ করতে শুরু করে।

১৯৪৭ সালে টুকি চালু করেন ‘বিট’ শব্দটি, যা ক্লোড শ্যানন ১৯৪৮ সালে তাঁর প্রবন্ধ ‘সম্প্রসারণের গণিত সিদ্ধান্ত’-এ ব্যবহার করেন। ১৯৭৭ সালে টুকি প্রকাশ করেন ‘অনুসন্ধানমূলক ডাটা বিশ্লেষণ’ নামের বইটি, যেখানে তিনি জোর দিয়েছেন যে ডাটা ব্যবহার করে অনুমিত সিদ্ধান্ত বৈজ্ঞানিক উপায়ে টেস্ট করার মাধ্যমে ‘অনুসন্ধানমূলক ডাটা বিশ্লেষণ’ এবং ‘নিশ্চিত ডাটা বিশ্লেষণ’ পাশাপাশি এগিয়ে যাওয়া উচিত।

১৯৭৪ সালে পিটার নাউর সুইডেন এবং যুক্তরাষ্ট্রে ‘কনসাইস সার্ভে অব কম্পিউটার মেথডস’ নামে একটি বই প্রকাশ করেন। এই বইটি একটি সমকালীন ডাটা প্রক্রিয়া পদ্ধতির সামগ্রিক বিষয়ে পর্যালোচনা করা হয়, যেখানে বিভিন্ন অ্যাপ্লিকেশন ব্যবহৃত হয় এবং ডাটাকে সংজ্ঞায়িত করা হয় এভাবে, ‘ডাটা হলো যেসব তথ্য বা ধারণা, যা একটি ফর্মালাইজড পদ্ধতিতে প্রদর্শিত হয় এবং কোনও প্রক্রিয়ার মাধ্যমে সংযুক্ত হতে পারে।’

বইটির সূচনাতে উল্লেখ করা হয় ‘ডাটালজি, ডাটা এবং ডাটা প্রক্রিয়ার বিজ্ঞান এবং শিক্ষায় তার অবস্থান’ শিরোনামে একটি কোর্স পরিকল্পনা IFIP কংগ্রেসে উপস্থাপিত হয় ১৯৬৮ সালে।

এই বইয়ের ভেতরে ‘ডাটা সায়েন্স’ পদটি স্বাধীনভাবে ব্যবহৃত হয়েছে। সেখানে নাউর ডাটা সায়েন্সের নিম্নলিখিত সংজ্ঞা প্রদান করেন: ‘ডাটা সম্পর্কিত তত্ত্ব যা ডাটা প্রতিষ্ঠিত হওয়ার পর তাদের মধ্যকার সম্পর্ক অন্য কোনও ক্ষেত্রে বা বিজ্ঞানের শাখায় অর্পিত করে দেয়।’

১৯৭৭ সালে আন্তর্জাতিক পরিসংখ্যান কম্পিউটিং অ্যাসোসিয়েশন (IASC) আইএসআইর একটি বিভাগ হিসাবে স্থাপিত হয়। এই “IASC-এর উদ্দেশ্য হলো পারস্পরিক পরিসংখ্যানিক পদ্ধতি, আধুনিক কম্পিউটার প্রযুক্তি এবং ডোমেইন বিশেষজ্ঞদের জ্ঞান সংযোগ করে ডাটাকে তথ্য এবং জ্ঞানে পরিণত করা।’

সেপ্টেম্বর ১৯৯৪ সালে বিজনেস উইকে ‘ডাটাবেস মার্কেটিং’ বিষয়ে একটি কভার স্টোরি প্রকাশিত হয়েছিল। এই স্টোরিতে উল্লেখ করা হয়েছিল যে ব্যবসায়ী কোম্পানিগুলো তথ্য সংগ্রহ করে এবং তাদের সম্পর্কে বিভিন্ন তথ্য ব্যবহার করে পণ্য কেনার সম্ভাবনা নির্ধারণ করতে চেষ্টা করে। তারা নিজেদের পণ্য বিপণনের জন্য এই তথ্যগুলো ব্যবহার করে একটি বিজ্ঞাপন বার্তা তৈরি করার জন্য সঠিক পদক্ষেপ গ্রহণ করে।

ইন্টারন্যাশনাল ফেডারেশন অব ক্লাসিফিকেশন সোসাইটিজ (IFCS)-এর সদস্যরা ১৯৯৬ সালে তাদের দ্বিবার্ষিক সম্মেলনের জন্য জাপানের কোবেতে একত্রিত হয়েছিল।

সম্মেলনের শিরোনামে এবার ‘ডাটা সায়েন্স’ শব্দটি অন্তর্ভুক্ত করা হয়েছিল। সম্মেলনের শিরোনাম ছিল, ‘ডাটা সায়েন্স, শ্রেণিবিভাগ, এবং সম্পর্কিত পদ্ধতি’। IFCS প্রথমবারের মতোই পুরো নামে সম্মেলনে ‘ডাটা সায়েন্স’ টার্মটি ব্যবহার করা হয়েছিল। এই সোসাইটি তাদের প্রকাশনায় ডাটা বিশ্লেষণ, ডাটা মাইনিং এবং ডেটা সায়েন্স শব্দগুলো বিভিন্নভাবে ব্যবহার করেছিল। এইভাবে, IFCS এবং তার সদস্যগণ ডাটা সায়েন্স বিষয়ক গবেষণা এবং উন্নয়নে গুরুত্বপূর্ণ ভূমিকা পালন করেছেন।

১৯৯৭ সালে মিশিগান বিশ্ববিদ্যালয়ের এইচ সি কারভার পরিসংখ্যান চেয়ারের প্রথম লেকচারে, প্রফেসর সি. এফ. জেফ পরিসংখ্যানকে ডাটা বিজ্ঞান এবং পরিসংখ্যানবিদদের ডাটা বিজ্ঞানী নামে পুনঃনামকরণের আহ্বান জানান।

১৯৯৭ সালে ‘ডাটা মাইনিং এবং নলেজ ডিসকভারি’ নামক একটি জার্নাল শুরু হয়েছিল। এই জার্নালটির শিরোনামে পদগুলোর ক্রমকে উল্টানো হয়েছিল, যাতে ‘বৃহত্তর ডাটাবেস থেকে তথ্য আহরণ’ নির্ধারণের আরও জনপ্রিয় উপায় হিসাবে ‘ডাটা মাইনিং’-এর উন্নতি প্রতিফলিত হতো। এটি ডাটা মাইনিং এবং নলেজ ডিসকভারি সংক্রান্ত গবেষণাপত্র ও প্রকল্প প্রকাশের জন্য একটি গুরুত্বপূর্ণ মাধ্যম হিসেবে পরিচিত হয়েছিল।

১৯৯৯ সালের ডিসেম্বরে হোয়ার্টনের ভিজিটিং প্রফেসর জ্যাকব জাহাভির Knowledge@Wharton-এ “মাইনিং ডাটা ফর নগেটস অব নলেজ’ শিরোনামের এক লেখায় বলেন, ব্যবসায়িক কোম্পানিগুলো গ্রাহকদের আচরণ বিশ্লেষণের জন্য দীর্ঘ সময় ধরে পরিসংখ্যানিক পদ্ধতি ব্যবহার করে থাকে, কিন্তু ডাটা মাইনিং বিপুল পরিমাণ ডাটা নিয়ে কাজ করে, যা চিরাচরিত পরিসংখ্যান পদ্ধতি থেকে ভিন্ন। তিনি ব্যাখ্যা করেন, ‘প্রচলিত পরিসংখ্যান পদ্ধতিগুলো ছোট ডাটা সেটগুলোর সঙ্গে ভালো কাজ করে। কিন্তু বর্তমানে, লাখ লাখ সারি এবং কলামের ডাটার ডাটাবেস দেখা যায়। স্কেলেবিলিটি হলো ডাটা মাইনিংয়ে একটি বড় সমস্যা। আরেকটি প্রযুক্তিগত চ্যালেঞ্জ হলো ডাটা বিশ্লেষণ, অরৈখিক সম্পর্ক এবং উপাদানগুলোর মধ্যে মিথস্ক্রিয়া শনাক্ত করতে আরও ভালো কাজ করতে পারে এমন সব প্রয়োজনীয় মডেল তৈরি করা।’

১৯৬০ থেকে ১৯৭০ দশকটি ডাটা ম্যানেজমেন্টের বিকাশের বছর ধরা হয়। ১৯৭৭ সালে বিশিষ্ট পরিসংখ্যানবিদ জন টুকি ডাটা সায়েন্সকে সামনে নিয়ে আসেন। এর পরবর্তী দুই দশক কীভাবে ডাটা সায়েন্স অগ্রগতি লাভ করেছে এবং এর বিস্তারের সুযোগ ঘটেছে তার সম্পর্কে কিছুটা ধারণা এখানে দেওয়া হলো।

ডাটা সায়েন্সের সবচেয়ে বেশি অগ্রগতি ঘটেছে কিন্তু গত দুই দশকে, ভবিষ্যতের কোনও লেখায় এ সম্পর্কে আপনাদের একটা ধারণা দেবো।

লেখক: অধ্যাপক, ফলিত পরিসংখ্যান এবং ডাটা সায়েন্স পরিসংখ্যান গবেষণা ও শিক্ষণ ইনস্টিটিউট, ঢাকা বিশ্ববিদ্যালয়।

[email protected]

/এসএএস/এমওএফ/

*** প্রকাশিত মতামত লেখকের একান্তই নিজস্ব।

বাংলা ট্রিবিউনের সর্বশেষ
টিপু-প্রীতি হত্যা: আ.লীগ নেতাসহ ৩৩ জনের বিচার শুরু
টিপু-প্রীতি হত্যা: আ.লীগ নেতাসহ ৩৩ জনের বিচার শুরু
ঘনঘন শ্যাম্পু ব্যবহারে চুল রুক্ষ হয়ে যাচ্ছে? জেনে নিন সমাধান
ঘনঘন শ্যাম্পু ব্যবহারে চুল রুক্ষ হয়ে যাচ্ছে? জেনে নিন সমাধান
সড়ক দুর্ঘটনায় প্রাণ গেলো ব্যবসায়ীর
সড়ক দুর্ঘটনায় প্রাণ গেলো ব্যবসায়ীর
আজ কি বৃষ্টি হবে?
আজ কি বৃষ্টি হবে?
সর্বশেষসর্বাধিক

লাইভ