যন্ত্রের মগজে দূষিত তথ্য

তথ্যই আজকের দুনিয়ার নতুন পেট্রল। প্রশ্ন হল, সেই তেল পুড়িয়ে সভ্যতার চাকাগুলোকে গড়িয়ে নিয়ে যাওয়ার জন্যে যে ইঞ্জিন প্রয়োজন, সেটা কী? সেই ইঞ্জিনের নাম হল আর্টিফিশিয়াল ইন্টেলিজেন্স (সংক্ষেপে এআই), বা কৃত্রিম মেধা। কিন্তু, অপরিশোধিত পেট্রল তো জ্বালানি হিসাবে ব্যবহার করা যায় না। একই কথা প্রযোজ্য তথ্য সম্পর্কেও। তথ্যে যদি মিশে থাকে ভেজাল, সরকারি ভাবে সংগৃহীত তথ্যকে যদি করে তোলা হয় পক্ষপাতদুষ্ট, তা হলে কৃত্রিম মেধার আধুনিকতম মডেলগুলো সেই তথ্যকে বিশ্লেষণ করে যে সিদ্ধান্তে পৌঁছবে, তা শুধুই মানুষকে বিভ্রান্ত করবে। অবশ্য সেই বিভ্রান্তি কোনও কোনও পক্ষের কাছে লাভজনক হয়ে উঠবে বইকি। আজ যখন এআই, মেশিন লার্নিং, বিগ ডেটা— এই কথাগুলো আমাদের প্রাত্যহিকতায় মিশে যাচ্ছে, প্রধানমন্ত্রী ভাবী আমলাদের মনে করিয়ে দিচ্ছেন সরকার চালনায় কৃত্রিম মেধার গুরুতর ভূমিকার কথা, তখন বিষয়টির নৈতিক দায়বদ্ধতা এবং সম্ভাব্য অপব্যবহারের দিকগুলোও খতিয়ে দেখা প্রয়োজন।

কৃত্রিম মেধার সবচেয়ে সফল পর্যায়টি হল মেশিন লার্নিং বা যন্ত্রের শিক্ষণ। যন্ত্র বলতে ডিজিটাল কম্পিউটার— যা আবার সংখ্যা ছাড়া খুব একটা কিছু বোঝে না। আমাদের চার পাশে থাকা যে কোনও কিছুকে যদি শুধু কয়েকটি সংখ্যার মাধ্যমে বিমূর্ত ভাবে উপস্থাপিত করা যায় সেই কম্পিউটারের যান্ত্রিক মগজে, তখন সেই বস্তুটি হয়ে ওঠে এক টুকরো তথ্য। লার্নিং বা শিক্ষণ এমন একটা প্রক্রিয়া, যেখানে পূর্বার্জিত অভিজ্ঞতার ভিত্তিতে কোনও বিশেষ পরিস্থিতিতে নেওয়া যেতে পারে যথাযথ সিদ্ধান্ত। মেশিন লার্নিং-এর একটা প্রধান অংশে ঠিক এই ভাবে, বিভিন্ন তথ্যকে পূর্ব-নির্ধারিত কিছু শ্রেণিতে ভাগ করতে আগের অভিজ্ঞতার ভিত্তিতে কম্পিউটারকে শেখানো হয়।

কিন্তু কম্পিউটার এত ‘অভিজ্ঞতা’ কোথায় পাবে? পাবে বিশেষজ্ঞদের কাছেই। ধরুন, কয়েক জন ক্যানসার-বিশেষজ্ঞ অনেক সময় নিয়ে খুঁটিয়ে দেখে, দীর্ঘ দিন ধূমপান করছেন বা ধোঁয়ার মধ্যে অনেকটা সময় থাকতে হয় এমন বেশ কিছু মানুষের ফুসফুসের এক্স-রে বা সিটি স্ক্যান ছবিগুলোকে দু’টি শ্রেণিতে ভাগ করে দিলেন। প্রথম শ্রেণিতে সেই সব ভাগ্যবানের ছবি, যাঁদের ফুসফুসে কোনও নডিউল বা বিসদৃশ স্ফীতি দেখা যাচ্ছে না; আর দ্বিতীয় শ্রেণিতে তাঁরা, যাঁদের ফুসফুসে এ রকম বেশ কিছু নডিউল-এর উপস্থিতি ইঙ্গিত দিচ্ছে যে, অদূর ভবিষ্যতে এঁরাই হবেন ক্যানসারের শিকার। আগে থেকে চিহ্নিত করা এই ছবিগুলো থেকে, রাশিবিজ্ঞানের কিছু নিয়মকে কাজে লাগিয়ে এবং মানবমস্তিষ্ককে খুব অক্ষমের মতো অনুকরণ করেও, একটা কম্পিউটার এই দুই শ্রেণির মধ্যে পার্থক্য করতে পারে, এক্স-রে ছবির এমন খুঁটিনাটি বৈশিষ্ট্যগুলোকে খুব ভাল ভাবে চিনে রাখতে পারে। এই ভাবে প্রভেদক বৈশিষ্ট্যগুলো রপ্ত করার পর, এই প্রশিক্ষিত কম্পিউটার এক জন নতুন রোগীর থেকে সংগৃহীত এক্স-রে ছবি খুঁটিয়ে পরীক্ষা করে, অনেকটা ডাক্তারদের মতোই বলে দিতে পারে যে, এই রোগীর ফুসফুসে ভবিষ্যতে ক্যানসার দেখা দিতে পারে কি না। আর যন্ত্র হওয়ার কারণেই হয়তো, খুব ছোট বা সূক্ষ্ম নডিউলও সে ডাক্তারদের চেয়ে বেশি নিখুঁত ভাবে ধরে ফেলতে পারে।

সুতরাং, বিভিন্ন শ্রেণির বহু পূর্বচিহ্নিত উদাহরণ বিশ্লেষণ করে কৃত্রিম মেধাসম্পন্ন কম্পিউটার এমন কিছু নিয়ম নিজেই শিখে ফেলে, যেগুলোকে কাজে লাগিয়ে সে ছবি, ভিডিয়ো, টেক্সট, বা অডিয়োর মতো তথ্যের যথাযথ শ্রেণি নির্ধারণ করতে পারে। কিন্তু কেমন হবে, যদি যন্ত্রের সামনে সাজিয়ে দেওয়া এই চিহ্নিত তথ্যগুলো কোনও এক বা একাধিক বিরল শ্রেণির ক্ষেত্রে খুবই কম পাওয়া যায়? আগের উদাহরণটির ক্ষেত্রেই হয়তো র‌্যান্ডম স্যাম্পলিং-এর মাধ্যমে বেছে নেওয়া প্রতি ১০০ জন রোগীর মধ্যে, ক্যানসার শ্রেণিতে অন্তর্ভুক্ত হবেন মাত্র ৩-৪ জন। এই ক্ষেত্রে কম্পিউটার ওই শ্রেণির বৈশিষ্ট্যগুলোকে আদৌ ভাল ভাবে চিনতে শিখবে না। আবার এমনও হতে পারে যে, সংগৃহীত তথ্যগুলো ওই শ্রেণির সমস্ত স্তর থেকে এলই না, এবং শ্রেণিটির সমস্ত বৈশিষ্ট্যকে যথাযথ ভাবে প্রকাশ করতে পারল না। এমন উদাহরণও রোজকার জীবন থেকেই নেওয়া যাক। আর্থসামাজিক ক্ষেত্রে তথ্য সংগ্রহের প্রচলিত উপায় হল সার্ভে বা সমীক্ষা। নির্বাচন-পূর্ববর্তী জনমত সমীক্ষার জন্য তথ্য সংগ্রহ করার সময় যদি সমীক্ষক সংস্থা তাদের পছন্দের পার্টির সমর্থকদেরই নিশানা করে, এবং বিরোধী দলগুলোর সমর্থকদের যতটা সম্ভব এড়িয়ে যায়, তবে এই সংগৃহীত তথ্যভান্ডার ঘেঁটে এমনকি সম্পূর্ণ নিরপেক্ষ একটি তথ্যপ্রযুক্তি সংস্থার কৃত্রিম মেধাসম্পন্ন কম্পিউটারও এক ধরনের পক্ষপাতদুষ্ট সিদ্ধান্তে পৌঁছবে। সেই সিদ্ধান্ত একেবারেই বাস্তবসম্মত না হলেও তাৎক্ষণিক ভাবে ওই পছন্দের পার্টির কর্মীদের কিছুটা অক্সিজেন জোগাবে এবং হয়তো ঘুরপথে, জনমতকেও কিছুটা প্রভাবিত করবে।

তথ্যভান্ডারের এই অসাম্য এবং পক্ষপাত থেকেই শুরু হয় সেই তথ্যের উপর পুরোপুরি নির্ভরশীল কৃত্রিম মেধাতন্ত্রের আসল বিপদ। আজকের দিনে, কৃত্রিম মেধা যখন পৃথিবীর উন্নত রাষ্ট্রগুলোর কাছে আইন বলবৎ করা থেকে শুরু করে নাগরিকদের উপর নজরদারির অন্যতম হাতিয়ার হয়ে উঠেছে, তখন তার এই নৈতিক বিপন্নতা আম-নাগরিকদের জীবনে প্রভাব ফেলতে বাধ্য। ২০১৭-১৮ থেকে আমেরিকার সংখ্যালঘু কয়েক জন তরুণ বিজ্ঞানী সরব হয়েছেন গুগল, অ্যামাজ়ন, বা ফেসবুকের মতো বড় কোম্পানিগুলোর প্রচলিত কৃত্রিম মেধাভিত্তিক ফেশিয়াল ডিটেকশন বা মুখ চিনে নেওয়ার সফটওয়্যারগুলোতে লুকিয়ে থাকা বর্ণ ও লিঙ্গভিত্তিক বৈষম্যের বিরুদ্ধে। ২০১৮ সালে এমআইটি এবং স্ট্যানফোর্ড ইউনিভার্সিটির কিছু বিজ্ঞানী দেখিয়েছেন যে, মুখের ছবি থেকে শ্বেতাঙ্গদের লিঙ্গ নির্ধারণে এই ধরনের সফটওয়্যার এক শতাংশের কম ভুল করলেও, কালো চামড়ার মানুষদের ক্ষেত্রে সেই ভুল পৌঁছে যেতে পারে ৩৪ শতাংশে। শুধু লিঙ্গনির্ধারণ নয়, বড় বিপদের কথা হচ্ছে, কোনও অঞ্চলে চুরি বা ডাকাতি হলেও, এই ধরনের তথ্যনির্ভর সফটওয়্যার-ই পুলিশের কাজে আসে সম্ভাব্য অপরাধীদের শনাক্তকরণে। সেখানেও, সহজ চাঁদমারি হয়ে পড়েন সেই গরিব, কালো চামড়ার মানুষগুলোই। যন্ত্রকে প্রশিক্ষিত করে তুলতে প্রয়োজনীয় তথ্য সংগ্রহে রাষ্ট্রীয় স্তরে উপযুক্ত তথ্যনীতির অভাব, সমাজের পিছিয়ে পড়া অংশের প্রতি চিরকালীন ঔদাসীন্য কৃত্রিম মেধার নৈর্ব্যক্তিক চরিত্রটিকে নষ্ট করে দিচ্ছে প্রতি দিন। আবার এর ফলে তৈরি হওয়া পক্ষপাতদুষ্ট সফটওয়্যারগুলোকেই বিভিন্ন দেশের সরকার ব্যবহার করছে সংখ্যালঘু নাগরিকদের বিরুদ্ধে। এর সাম্প্রতিক উদাহরণ হল চিনের শিনচিয়াং অঞ্চলে বসবাসকারী উইঘুর সম্প্রদায়ের মুসলমানদের উপর নজরদারি চালাতে সরকারি উদ্যোগে মুখ চেনার সফটওয়্যার-এর ব্যবহার। এই সম্প্রদায়ের বহু মানুষ শুধু এই সফটওয়্যারটির ভুল সিদ্ধান্তের কারণে আটকে আছেন কোনও অন্ধকার জেলে।

পারমাণবিক শক্তির মতোই কৃত্রিম মেধাও আশীর্বাদ বা অভিশাপ, দুই রূপেই দেখা দিতে পারে। নৈতিকতার সপক্ষে আওয়াজ তুলে তথ্যপ্রযুক্তির জগতে দানব-সদৃশ কোম্পানিগুলোর মুনাফা লোটায় বাধা দিতে গেলে, তারাও সেই গবেষকদের ছেড়ে কথা বলবে না। আশার কথা হল, তা সত্ত্বেও কিছু বিজ্ঞানকর্মী লড়াইয়ের ময়দান ছাড়েন না— যেমন ছাড়েননি স্ট্যানফোর্ড ‘ব্ল্যাক ইন এআই’ গ্রুপের প্রতিষ্ঠাতা টিমনিট গেবরু, যাঁর কাজের মূল বিষয়টাই কৃত্রিম মেধার নৈতিক দায়বদ্ধতা। বিজ্ঞানজগতের অবিসংবাদী পত্রিকা নেচার পৃথিবী বদলে দেওয়া যে ১০ জন তরুণ বিজ্ঞানীর নাম ২০২১-এর ডিসেম্বর সংখ্যাতে ঘোষণা করে, তাঁদের মধ্যে টিমনিট অন্যতম। নেচার জানাচ্ছে, ২০২০-তে গুগল থেকে বিতাড়িত হতে হয়েছে টিমনিট-কে, তাঁর গবেষণার প্রতিবাদী চরিত্রের জন্য। কিন্তু থামেননি তিনি, মাত্র এক বছরের মধ্যে, বিশাল মাপের কোনও তথ্যপ্রযুক্তি সংস্থার আর্থিক সাহায্য ছাড়াই গড়ে তুলেছেন নিজস্ব গবেষণা সংস্থা— কৃত্রিম মেধাকে পক্ষপাতমুক্ত রাখাই যার উদ্দেশ্য।

পৃথিবীর জনসংখ্যার প্রায় এক-পঞ্চমাংশের বাস আমাদের দেশে। বহু মানুষ মানেই বিশাল ও বৈচিত্রপূর্ণ তথ্যভান্ডার। তথ্যভিত্তিক গভর্ন্যান্সের স্বার্থে, কৃত্রিম মেধার সাহায্যে সেই ভান্ডারের নিরপেক্ষ বিশ্লেষণ করতে, এবং রাষ্ট্রীয় উদ্যোগে কোনও বিশেষ জনগোষ্ঠীকে নিশানা করে এর অপব্যবহারকে রুখে দেওয়ার দায়িত্ব আমাদেরই তরুণ কম্পিউটার বিজ্ঞানীদের উপর বর্তায়। জানি না, তাঁদের মধ্যেই কেউ অদূর ভবিষ্যতে আর এক জন টিমনিট গেবরু হয়ে উঠতে পারবেন কি না।

ইলেকট্রনিক্স অ্যান্ড কমিউনিকেশন বিভাগ, ইন্ডিয়ান স্ট্যাটিস্টিক্যাল ইনস্টিটিউট, কলকাতা