চ্যাটজিপিটি কীভাবে প্রশ্ন বোঝে ও উত্তর তৈরি করে

প্রতিনিয়তই আমরা কৃত্রিম বুদ্ধিমত্তা (Artificial Intelligence বা AI) প্রযুক্তির উন্নয়ন দেখে চমকে উঠছি। বিশেষ করে চ্যাটজিপিটি (ChatGPT)-র মতো চ্যাটবটগুলোর কার্যকারিতা দেখে অনেকেই বিস্মিত। প্রশ্ন করলেই মুহূর্তে যেন একজন দক্ষ মানুষ উত্তর দিয়ে দেয়! কিন্তু আসলেই কি এটি মানুষ? না, এটি একটি এলগরিদম-চালিত ভবিষ্যদ্বাণীমূলক লেখা তৈরি করার যন্ত্র—যা মানুষের মতো ভাবতে না পারলেও শব্দের প্যাটার্ন বুঝে অসাধারণভাবে প্রতিক্রিয়া দেখায়।
কীভাবে কাজ করে চ্যাটজিপিটি?
চ্যাটজিপিটি একটি লার্জ ল্যাঙ্গুয়েজ মডেল (LLM)—যা মূলত এক ধরনের ক্যাজুয়াল ল্যাঙ্গুয়েজ মডেল। এর কাজ হলো পূর্ববর্তী শব্দগুলোর ভিত্তিতে পরবর্তী শব্দ কী হতে পারে, সেটি অনুমান করে লেখা তৈরি করা। একে আপনি চাইলে ফোনের Auto-suggestion ফিচারের একটা জটিল, সুদূরপ্রসারী ও বুদ্ধিদীপ্ত সংস্করণ বলতে পারেন।
প্রথম ধাপ: ইনপুট বোঝে টোকেনাইজেশন প্রক্রিয়ায়
আপনি যখন চ্যাটজিপিটিকে কিছু বলেন বা লেখেন, তখন সেটি সরাসরি বুঝে না। বরং এটি প্রথমে আপনার লেখাকে ভেঙে ফেলে টোকেন নামক ক্ষুদ্র একক অংশে। এই প্রক্রিয়াকে বলা হয় টোকেনাইজেশন (Tokenization)।
প্রতিটি টোকেন একটি শব্দ, শব্দাংশ বা অক্ষর হতে পারে। উদাহরণস্বরূপ, “চ্যাটজিপিটি” শব্দটি টোকেনাইজ হয়ে হতে পারে “চ্যাট” এবং “জিপিটি”—এই দুটি অংশ।
এই টোকেনগুলো বিশ্লেষণ করে মডেলটি বোঝার চেষ্টা করে আপনি কী জানতে চাইছেন।
দ্বিতীয় ধাপ: প্রাসঙ্গিকতা যাচাই ও শব্দ বেছে নেওয়া
একবার টোকেন বিশ্লেষণ শেষ হলে, চ্যাটজিপিটি সেল্ফ-অ্যাটেনশন (Self-Attention) নামক একটি জটিল প্রযুক্তি ব্যবহার করে আপনার প্রশ্নের প্রাসঙ্গিকতা যাচাই করে।
এটি দেখে কোন শব্দ অন্য কোন শব্দের সঙ্গে কতটা সম্পর্কযুক্ত। যেমন ইংরেজি বাক্য “The bank will not approve the loan” এ “bank” শব্দটি একটি নদীর পাড় নাকি একটি আর্থিক প্রতিষ্ঠান বোঝাতে ব্যবহৃত হয়েছে, সেটা বাক্যের প্রেক্ষাপট দেখে চ্যাটজিপিটি বুঝে নেয়।
এই প্রযুক্তির নাম ট্রান্সফরমার (Transformer Model), যা ২০১৭ সালে গুগলের গবেষকরা উদ্ভাবন করেন এবং আজকের প্রায় সব আধুনিক ভাষা মডেলের ভিত্তি।
তৃতীয় ধাপ: সম্ভাব্য উত্তর তৈরি (Token Prediction)
সবকিছু বিশ্লেষণ করে চ্যাটজিপিটি প্রতিটি ধাপে একটা একটা করে সম্ভাব্য টোকেন বা শব্দ বেছে নেয়। উদাহরণস্বরূপ, যদি আপনি বলেন—“বাংলাদেশের রাজধানী কোথায়?” তাহলে এটি প্রথমে “বাংলাদেশের”, পরে “রাজধানী”, এরপর বিশ্লেষণ করে সম্ভাব্য পরবর্তী শব্দ হতে পারে “ঢাকা”—এটা গণনা করে বেছে নেয়।
প্রতিটি শব্দের জন্যই এটি অনেক সম্ভাব্য শব্দের মধ্য থেকে একটি নির্বাচন করে। ফলে উত্তর তৈরি হয় ধাপে ধাপে, শব্দ ধরে ধরে। এজন্যই মনে হয়, চ্যাটজিপিটি যেন টাইপ করে করে উত্তর দিচ্ছে।
একই প্রশ্ন, ভিন্ন উত্তর কেন দেয়?
আপনি যদি এক প্রশ্ন বারবার করেন, তাহলে লক্ষ্য করবেন চ্যাটজিপিটি প্রায়ই একই অর্থবোধক হলেও ভাষাগতভাবে ভিন্ন ভিন্ন উত্তর দেয়।
এর কারণ হলো, অনেক সময় একাধিক টোকেন প্রায় সমান সম্ভাবনাময় থাকে। তখন এলগরিদম যেকোনো একটি বেছে নেয়। আর এটাই ভাষার ভিন্নতা সৃষ্টি করে।
ভাষা শেখে কীভাবে?
চ্যাটজিপিটি কিন্তু জন্ম থেকেই এত কিছু জানে না। বরং এটি বিশাল তথ্যভাণ্ডার থেকে প্রশিক্ষণ (Training) পায়। এই প্রশিক্ষণ মূলত দুই ধাপে সম্পন্ন হয়:
১. প্রি–ট্রেইনিং (Pre-training)
এ ধাপে মডেলটি ইন্টারনেটের লাখ লাখ বই, আর্টিকেল ও ওয়েবসাইটের লেখা পড়ে শেখে কোন শব্দের পরে কোন শব্দ আসে। এর ফলে ব্যাকরণ, বানান, শব্দচয়ন, সাধারণ জ্ঞানসহ যুক্তিগ্রাহ্য বিষয়ও কিছুটা আয়ত্ত করে।
২. ফাইন–টিউনিং (Fine-tuning)
পরবর্তী ধাপে মানুষের সহায়তায় মডেলটিকে আরও সূক্ষ্মভাবে নিরীক্ষা করা হয়। এটি যেন নিরাপদ, বাস্তবভিত্তিক এবং সহায়ক উত্তর দেয়—সেজন্য ডেটাসেট, ফিডব্যাক ও ফাইন টিউনিং অত্যন্ত গুরুত্বপূর্ণ।
মানুষ নয়, মেশিন: ভুল করার আশঙ্কাও থাকে
যদিও চ্যাটজিপিটি অনেক সময় মানুষকেও হার মানায়, তবু এটি কোনোভাবেই চেতনা বা উপলব্ধিসম্পন্ন নয়। এটি শুধু প্যাটার্ন চিনে ভবিষ্যদ্বাণী করে।
এই কারণেই মাঝে মাঝে এটি ‘হ্যালুসিনেট’ করে—অর্থাৎ এমন তথ্য দেয়, যা বাস্তবে ভুল, মিথ্যা বা অস্তিত্বহীন। কারণ, এটি বাস্তবতা যাচাই করে না, শুধু সম্ভাব্যতা হিসেব করে চলে।
এ ছাড়া যেহেতু এটি পুরোনো তথ্য ও লেখার ওপর প্রশিক্ষণ পেয়েছে, তাই ঐসব ডেটায় থাকা পক্ষপাত, সাংস্কৃতিক দৃষ্টিভঙ্গি বা ভুল তথ্যের ছাপ এটিতেও থেকে যেতে পারে।
চ্যাটজিপিটির মতো AI মডেল নিঃসন্দেহে আধুনিক প্রযুক্তির এক বিস্ময়কর উদাহরণ। এটি মানুষের ভাষা বিশ্লেষণ ও প্রতিক্রিয়ার ক্ষেত্রে অনেক দূর এগিয়ে গেছে। তবে এটি কোনো মানুষ নয়—চেতনাহীন একটি এলগরিদম। তাই প্রযুক্তির সুবিধা নিতে হলে এর সীমাবদ্ধতা বুঝে এবং যথাযথভাবে ব্যবহার করাই বুদ্ধিমানের কাজ।