প্রথমেই বলে নিই, আমি ইলেকট্রিক্যাল অ্যান্ড ইলেকট্রনিক ইঞ্জিনিয়ারিং এর ছাত্র এবং সে কারণেই বোধ হয় আমার কোর্স ওয়ার্কের মাঝে ইমেজ প্রসেসিং এর থিওরিটিক্যাল কোনকিছু পড়ার দরকার পড়ে নি। কিন্তু ফাইনাল ইয়ারে যখন ডিসিশন নিলাম যে আমি ইমেজ প্রসেসিং এর উপর কাজ করবো তখনো সামনে কোন রকমের ঝামেলা যে পড়ে আছে, সেটা বুঝতে পারি নি। না বুঝেই সাগরে ঝাপ দিয়েছিলাম!
তবে কোর্সওয়ার্কগুলো থেকে একদিকে একটা সুবিধা পেয়েছি। সেটা হচ্ছে সিগন্যাল বা নিউম্যারিকাল মেথডের মত কোর্সগুলো করতে গিয়ে MATLAB (বাংলা উচ্চারণ ‘ম্যাটল্যাব’) এর সাথে পরিচয় হয়েছিলো। আমার জানামতে, ইমেজ প্রসেসিং এর জন্য দুনিয়ায় এখন বেস্ট টুল হচ্ছে এই MATLAB আর আমার কাজও হবে এটা দিয়ে। সেদিক থেকে এটা একটা সহায়ক জিনিস ছিলো।
তো থিসিসের কাজ যখন শুরু করলাম তখন প্রথমেই চ্যালেঞ্জ ছিলো ব্রেইন টিউমারের কয়েকশো এমআর ইমেজ (MRI) কালেকশন করা। নানান চড়াই উৎরাই পেরিয়ে (সে আরেক কাহিনী) ইমেজ কালেকশন করার ধাপ পার হবার পরে আসল ধাক্কাটা আসলো। প্রসেসিং এর মেইন কাজ শুরু করার পর দেখলাম যে ইমেজ কী, সেটার কন্সট্রাকশনই বা কী রকম, সেটাতে কী প্রসেস করবো, কিভাবে প্রসেস করবো এইসবের কিছুই জানি না! রীতিমত অকূল পাথারে হাবুডুবু খাওয়ার দশা। পরবর্তীতে ইন্টারনেট হাতড়ে হাতড়ে প্রয়োজনীয় জিনিসগুলো শেখা শুরু করলাম যা এখনো চলমান। বলা বাহুল্য, আমার ফাইনাল ইয়ার থিসিসের টপিক হচ্ছে ‘Brain Tumor and Edema Detection Using MATLAB’।
ইমেজ প্রসেসিং এর উপর আমার এই সিরিজ শুরু করার আসল কারণ হচ্ছে আমার অনুজদের মাঝে যারা ইমেজ প্রসেসিং এর কাজ ভবিষ্যতে করবে, তারা কাজের আগেই যেনো এই ব্যাপারে হালকা একটু ধারণা পায় যে তারা আসলে কীসের উপর কী করতে যাচ্ছে। স্বাভাবিকভাবেই এই সিরিজ খুব দুর্বোধ্য কিছু হবে না কারণ আমি বিগিনারদের জন্য এই সিরিজ লিখবো। আর ইইই কিংবা সিএসই’র বাইরেও যারা ইমেজ প্রসেসিং নিয়ে জানতে আগ্রহী এই সিরিজ তাদেরকে নিরাশ করবে না। একদম সহজ উপস্থাপনার মাঝ দিয়ে ইমেজ প্রসেসিংকে সবার সাথে পরিচয় করিয়ে দেয়াই এই সিরিজের আসল উদ্দেশ্য।
এই পর্বে আমরা ইমেজ প্রসেসিং এর একদম বেসিক কয়েকটা জিনিস জানবো। সেগুলো হচ্ছে ইমেজ এবং ইমেজ প্রসেসিং এই দুটো বলতে আসলে কী বোঝায় আর ইমেজ এর খুব বেসিক দুটো টার্ম পিক্সেল এবং রেজোল্যুশন এর মানে কী। চলুন তাহলে শুরু করা যাক।
ইমেজঃ
ইমেজ কী? আমরা সবাই জানি। ইমেজের নাম ছবি আর ছবির নাম ইমেজ, এই তো? না? কিন্তু আমরা যেটা নিয়ে এগোচ্ছি মানে ইমেজ প্রসেসিং, সেক্ষেত্রে ইমেজ এর সংজ্ঞা কিছুটা আলাদা।
ধরুণ, আপনি পুরাতন আমলের এনালগ (ফিল্ম ইউজ করা) ক্যামেরা ইউজ করে ছবি তুললেন। কিন্তু না, এই ছবিতে ইমেজ প্রসেসিং হবে না। আরেকটা কথা, শর্টকাটে এই জিনিসটাকে আমরা ‘ইমেজ প্রসেসিং’ বলে ফেললেও আসলে এটাকে বলা হয় ‘ডিজিটাল ইমেজ প্রসেসিং’। তাই বুঝতেই পারছেন যে আপনাকে ইমেজ প্রসেসিং করতে গেলে যে ইমেজ লাগবে সেটা হতে হবে ডিজিটাল ইমেজ। মানে ডিজিটাল ক্যামেরায় তোলা ইমেজ।
এখন ডিজিটাল ক্যামেরা আর এনালগ ক্যামেরার ইমেজের মাঝে পার্থক্য হচ্ছে, ডিজিটাল ক্যামেরা ইলেকট্রনিক সেন্সর ইউজ করে যে ছবি তুলে সেটাকে সে বাইনারী ফরমেটে (০,১ এই দুই ডিজিট দিয়ে) এক্সপ্রেস করে। আর এনালগ ক্যামেরায় যে জিনিসের ছবি তোলা হচ্ছে সেটাকে ক্যামেরার ভিতরে থাকা মিররের রিফ্লেকশনকে ফিল্মে ফেলে ছবি বের করে আনা হয়।
মোট কথা, আমরা যে ইমেজ প্রসেসিং এর কথা এখানে আলোচনা করছি সেটার জন্য আমাদের লাগবে ডিজিটাল ইমেজ। বলে রাখা উচিত, এনালগ ইমেজ বা অপটিক্যাল ইমেজকেও প্রসেস করা সম্ভব।
ইমেজ প্রসেসিংঃ
ইমেজ প্রসেসিং বলতে আসলে বোঝায় ডিজিটাল কোন ইমেজের উপর (বা ডিজিটাল ভিডিও’র ফ্রেম। অনেক ফ্রেমে বা ছবির সমন্বয়েই কিন্তু ভিডিও তৈরী হয়) নানান রকম ম্যাথমেটিকাল অপারেশন চালিয়ে সেই ইমেজ বা ফ্রেম এর নানান রকমের বৈশিষ্ট্য, গুণাগুণ বের করে আনা এবং সেগুলোকে ইউজ করে কাংখিত কোন ফলাফল লাভের চেষ্টা করা।
এটাকে আরো সহজ করে বুঝাতে আমার থিসিস ওয়ার্ক থেকেই একটা সহজ উদাহরণ দিচ্ছি। আমরা আমাদের থিসিসে যে কাজটা করতে যাচ্ছি সেটা হচ্ছে, আমরা মেশিনকে (মেশিন বলতে এখানে কম্পিউটার) ২ রকমের ইমেজ চিনিয়ে দিবো। এক রকমের ইমেজ হচ্ছে সুস্থ মানুষের ব্রেইনের MRI আর আরেক রকমের ইমেজ হচ্ছে ব্রেইনে টিউমার আছে এমন মানুষের ব্রেনের MRI। এই চেনানোর কাজ বা ইমেজের এনহেন্সমেন্ট, সেগমেন্টেশন, ডিটেকশন ইত্যাদিই মূলত ইমেজ প্রসেসিং। এর আরো কয়েকটা ধাপ আছে যেগুলো পরের সিরিজে আলোচনায় থাকবে।
পিক্সেল এবং রেজোল্যুশনঃ
এই ২টা টার্মের সাথে সবাই কমবেশি পরিচিত। তারপরেও মাঝে মাঝে এদেরকে আলাদা করতে একটু ঝামেলা লেগে যায়।
ধরা যাক, একটা ইমেজকে নানান রঙ এর অসংখ্য ছোট ছোট বিন্দু দিয়ে রিপ্রেজেন্ট করা হলো। এখন এই নানান রঙ এর বিন্দু গুলোই হচ্ছে পিক্সেল।
আবার অনেক সময় আমরা দেখি যে এই ছবির রেজোল্যুশন অ্যাতো…
আসলে এটা দিয়ে বুঝা যায় যে, ঐ ছবিকে যদি কোন ফ্রেম ওব রেফারেন্স দিয়ে রিপ্রেজেন্ট করা হয় তবে প্রতি অ্যাক্সিসে কতগুলো পিক্সেল আছে। এখন 2D ও 3D ইমেজের ক্ষেত্রে এই হিসাব ভিন্ন হবে। ইমেজ প্রসেসিং এ আমরা সাধারনত 2D ইমেজ নিয়ে কাজ করি বেশীরভাগ ক্ষেত্রে। সহজভাবে রেজোল্যুশন বুঝাতে আমি খুব সহজ একটা উদাহরণ দিতে চাই।
ধরা যাক, আপনার কম্পিউটারের মনিটরের রেজোল্যুশন হচ্ছে 1366×768 পিক্সেল। এখন যদি আপনার কম্পিউটারের সারা মনিটরকেই একটা ছবি হিসাবে কল্পনা করলে বুঝতে হবে মনিটরের দৈর্ঘ্যে 1366 টা পিক্সেল আছে এবং প্রস্থে 768 টা পিক্সেল আছে। দৈর্ঘ্য, প্রস্থের এই পিক্সেলগুলো দিয়েই সে আপনাকে আপনার নির্দেশনা মত ছবি দেখিয়ে যাচ্ছে। গাণিতিকভাবে বললে বলা যায় যে, রেজোল্যুশন হচ্ছে পিক্সেলের দিয়ে গঠিত একটা ম্যাট্রিক্স।
পিক্সেল এর কথা আসায়, বাড়তি যে আরেকটা টার্মের (এটা ইমেজ প্রসেসিং এর সাথে সম্পর্কযুক্ত কিছু না) সাথে পরিচয় করিয়ে দেয়ার লোভ সামলাতে পারছি না সেটা হচ্ছে PPI (Pixel Per Inch)। নাম থেকেই কাম। নাম দেখেই বুঝা যাচ্ছে যে PPI মানে হচ্ছে প্রতি স্কয়ার ইঞ্চিতে কতগুলো পিক্সেল আছে তা। ইন্টারেস্টিং একটা জিনিস হচ্ছে, কোন স্ক্রিনে যদি এই PPI এর ভ্যালু যদি ৩৩৩ এর উপরে থাকে তবে আপনার চোখ স্ক্রিনের ভিতরে পিক্সেল বা কোন বিন্দু টের পাবে না এবং PPI এর ভ্যালু ৩০০ এর কম হলে আপনি স্ক্রিনের পিক্সেলগুলোকে খালি চোখে দেখতে পারবেন। এই কারনে দামি ফোনগুলোতে খেয়াল করবেন ইদানিং মিনিমাম ৪০০ PPI এর স্ক্রিন থাকে এবং এর ফলে সেই স্ক্রিনে ছবি বা ভিডিও দেখতে অন্যরকম একটা তফাৎ বোধ হয়।
আজকের লেখা এতোটুকু পর্যন্তই। আগামী পর্বে আবার কথা হবে। আর কোন প্রশ্ন বা মতামত থাকলে নিচের কমেন্টবক্সে জানাতে পারেন।
সবাই ভালো থাকুন। আল্লাহ হাফেয।
কৃতজ্ঞতা স্বীকারঃ মুবিন ভাই দ্যা গ্রেট
sheiii <3 <3