সনাক্তকরণ এবং উৎপাদন একটি বিড়াল-ইঁদুরের দৌড়ে আটকে আছে। প্রতিটি নতুন মডেল রিলিজ পরিসংখ্যানগত ব্যবধান বন্ধ করে যার উপর ডিটেক্টররা নির্ভর করে — এবং প্রতিটি সনাক্তকরণ উন্নতির উত্তর দেওয়া হয় একটি নতুন হিউম্যানাইজার টুল দিয়ে। হুডের নিচে আসলে কী ঘটছে তা এখানে।
প্রতিটি AI টেক্সট ডিটেক্টর মূলত একটি পরিসংখ্যানগত বিভেদকারী — এটি টেক্সটের বৈশিষ্ট্যগুলো (টোকেন সম্ভাবনা, পার্প্লেক্সিটি, বার্স্টিনেস, সিনট্যাকটিক নিয়মিততা) দেখে এবং মেশিন-উৎপন্ন থেকে মানব-লিখিত বিষয়বস্তু আলাদা করার সংকেত খুঁজে বের করার চেষ্টা করে। Binoculars পদ্ধতি (ICML 2024) তার সংকেত হিসেবে দুটি ভাষা মডেলের মধ্যে ক্রস-পার্প্লেক্সিটির অনুপাত ব্যবহার করে। ModernBERT সুপারভাইজড পদ্ধতি লেবেলযুক্ত উদাহরণ থেকে সরাসরি সংকেত শেখে।
উভয় পদ্ধতি একটি মৌলিক দুর্বলতা শেয়ার করে: তারা যে সংকেতগুলোর উপর নির্ভর করে তা হলো মডেলগুলো কীভাবে টেক্সট তৈরি করে তার পার্শ্ব-প্রতিক্রিয়া, মেশিন-লিখিত-নেসের মৌলিক বৈশিষ্ট্য নয়। জেনারেটরগুলো উন্নত হওয়ার সাথে সাথে সেই পার্শ্ব-প্রতিক্রিয়াগুলো সংকুচিত হয়। একটি মডেল যা আরও মানুষের মতো লিখতে প্রশিক্ষিত — সংজ্ঞা অনুযায়ী — সনাক্ত করা আরও কঠিন হবে।
এটি একটি গবেষণা ব্যর্থতা নয়। এটি সমস্যা সম্পর্কে একটি কাঠামোগত সত্য। সনাক্তকরণ একটি চলমান লক্ষ্যে পরিচালিত হয়: প্রতিটি প্রধান LLM রিলিজ ব্যবধান সংকুচিত করে, প্রতিটি হিউম্যানাইজার টুল স্পষ্টভাবে ডিটেক্টর আউটপুটের বিরুদ্ধে প্রশিক্ষণ দেয়। প্রশ্নটি ‘আমরা কি চিরকাল ১০০% সনাক্তকরণ অর্জন করতে পারি’ নয় — এটি করা যায় না — বরং ‘আমরা কি বর্তমান প্রজন্মের থেকে এগিয়ে থাকতে পারি যথেষ্ট সময়ের জন্য যাতে বাস্তবে দরকারী হওয়া যায়।’
তিনটি উৎপাদন প্রবণতা সনাক্তকরণ আরও কঠিন করে তোলে। আকার: বড় মডেলগুলো পরিসংখ্যানগতভাবে আরও বৈচিত্র্যময় টেক্সট তৈরি করে কারণ তাদের সমৃদ্ধতর অভ্যন্তরীণ বিতরণ রয়েছে। একটি ৭০-বিলিয়ন-প্যারামিটার মডেলের ৭-বিলিয়ন-প্যারামিটার মডেলের চেয়ে বিস্তৃত মানব-সদৃশ আউটপুট রয়েছে। ইনস্ট্রাকশন-টিউনিং: RLHF এবং কনস্টিটিউশনাল পদ্ধতি মডেলগুলোকে পুনরাবৃত্তিমূলক, হেজিং, নিরামিষ প্যাটার্নগুলো এড়াতে শেখায় যা GPT-3 সনাক্ত করা সহজ করেছিল। তাপমাত্রা এবং স্যাম্পলিং: চ্যাট ইন্টারফেসগুলো নিউক্লিয়াস স্যাম্পলিং এবং এলোমেলোতার দিকে সরে গেছে, যা ক্লাসিক্যাল ডিটেক্টরগুলো অ্যাঙ্কর হিসেবে ব্যবহার করত কিছু নিম্ন-বৈচিত্র্যের প্যাটার্ন ভেঙে দেয়।
GPT-5, Claude 4.5 এবং Gemini 2.5 সবই তাদের পূর্বসূরীদের চেয়ে উল্লেখযোগ্যভাবে সনাক্ত করা আরও কঠিন। আমাদের অভ্যন্তরীণ ভ্যালিডেশন এটি নিশ্চিত করে: প্রতিটি মডেল প্রজন্ম আগের প্রজন্মের তুলনায় সেই পরিবারে আমাদের AUC ৫–১০ শতাংশ পয়েন্ট কমায়। প্রতি-মডেল সংখ্যার জন্য আমাদের নির্ভুলতা বেঞ্চমার্ক দেখুন।
হিউম্যানাইজার টুল — Undetectable AI, StealthWriter, Humanbeing এবং একটি ক্রমবর্ধমান তালিকা — স্পষ্ট প্রতিপক্ষ। তারা AI আউটপুট নেয় এবং বিশেষভাবে ডিটেক্টর পরাজিত করতে প্যারাফ্রেজ, পুনর্লিখন বা স্টাইল-ট্রান্সফার করে। তারা পাবলিক ডিটেক্টরের বিরুদ্ধে প্রশিক্ষিত (আমাদের সহ, যদিও আমরা কখনো আমাদের মডেল ওজন শেয়ার করি না) এবং প্রতিটি আপডেটের সাথে পরিমাপযোগ্যভাবে আরও ভালো হয়।
উৎপাদন অস্ত্র প্রতিযোগিতায় ডিটেক্টরের তিনটি সাড়া আছে। এনসেম্বলিং: একাধিক সনাক্তকরণ সংকেত একত্রিত করা যাতে যেকোনো একটি ফাঁকি কৌশল অপর্যাপ্ত হয়। সুপারভাইজড ModernBERT সহ জিরো-শট Binoculars-এর আমাদের এনসেম্বল এটি কাজে লাগায়: একটি হিউম্যানাইজার যা একটি কম্পোনেন্টকে পরাজিত করে প্রায়শই অপরের বিরুদ্ধে ব্যর্থ হয়, এবং এনসেম্বল স্কোর উভয় ক্যাপচার করে।
ক্রমাগত পুনরায় প্রশিক্ষণ: আমরা লঞ্চের ৪ সপ্তাহের মধ্যে প্রতিটি প্রধান নতুন জেনারেটর রিলিজ থেকে স্যাম্পল যোগ করি। যদি আগামীকাল GPT-6 আসে, আমাদের ট্রেনিং কর্পাসে মাসের মাঝামাঝির মধ্যে এটি অন্তর্ভুক্ত থাকবে। এটি ব্যয়বহুল — কম্পিউট, অ্যানোটেশন, পুনরায়-ভ্যালিডেশন — কিন্তু এটি সনাক্তকরণ বর্তমান রাখার একমাত্র উপায়। ডিটেক্টর যেগুলো বার্ষিক বা কম পুনরায় প্রশিক্ষণ দেয় এক বছরের মধ্যে কার্যকরভাবে জাদুঘরের টুকরো।
বিরোধিতামূলক প্রশিক্ষণ: আমরা ইচ্ছাকৃতভাবে হিউম্যানাইজড AI স্যাম্পল এবং প্যারাফ্রেজড আউটপুটে প্রশিক্ষণ দিই, মডেলকে পৃষ্ঠ-স্তরের স্টাইল ট্রান্সফার দেখতে শেখাই। এটি একটি হিউম্যানাইজারকে আমাদের ফাঁকি দিতে যা করতে হবে তার মেঝে বাড়ায়, যা পরিবর্তে অস্ত্র প্রতিযোগিতা ধীর করে।
হিউম্যানাইজার টুলগুলো আসলে কীভাবে কাজ করে? তিনটি বিস্তৃত বিভাগ। প্যারাফ্রেজিং: একটি সেকেন্ডারি LLM ব্যবহার করে শব্দ-বাই-শব্দ বা বাক্য-বাই-বাক্য টেক্সট পুনর্লিখন। সঠিক টোকেন সিকোয়েন্সের উপর নির্ভরশীল সরলমতি ডিটেক্টরের বিরুদ্ধে কার্যকর; পরিসংখ্যানগত পদ্ধতির বিরুদ্ধে মাঝারিভাবে কার্যকর। স্টাইল ট্রান্সফার: একটি নির্দিষ্ট লেখক বা রেজিস্টার অনুকরণ করতে টেক্সট রূপান্তরিত করা। আরও কার্যকর — স্টাইল-ট্রান্সফারড AI টেক্সটে আমাদের ডিটেক্টরের AUC ~৮ পয়েন্ট কমে।
হাইব্রিড মানব-AI সম্পাদনা: লেখক একটি খসড়া লেখেন, পালিশের জন্য একটি LLM দিয়ে চালান, তারপর পালিশ করা সংস্করণটি ম্যানুয়ালি সম্পাদনা করেন। এটি সবচেয়ে কঠিন ক্ষেত্র — বৈধভাবে সহযোগিতামূলক কাজ যা বাক্য স্তরে মানব এবং মেশিন সংকেত মিশিয়ে দেয়। কোনো ডিটেক্টর, আমাদের সহ, সম্পাদনা-ইতিহাসের মেটাডেটা ছাড়া নির্ভরযোগ্যভাবে এগুলো সমাধান করতে পারে না যা ডিটেক্টর দেখতে পায় না।
একটি দরকারী মানসিক মডেল: একটি হিউম্যানাইজার একটি ডিটেক্টর-ব্রেকার নয়, এটি ফাঁকি দিতে চাওয়া ব্যক্তির জন্য একটি খরচ গুণক। এটি সময় নেয়, কখনো কখনো অর্থ, এবং সবসময় ত্রুটি প্রবর্তনের ঝুঁকি যোগ করে। বেশিরভাগ একাডেমিক প্রতারণার প্রচেষ্টা হিউম্যানাইজার ব্যবহার করে না কারণ ঘর্ষণ সুবিধার চেয়ে বেশি। যেখানে হিউম্যানাইজাররা আধিপত্য করে তা হলো পেশাদার কন্টেন্ট ফার্মিং এবং AI-উৎপন্ন SEO স্প্যাম — ব্যবহারের ক্ষেত্রে যেখানে থ্রুপুট গুরুত্বপূর্ণ এবং মান নিয়ন্ত্রণ দুর্বল।
যেকোনো নথি পেস্ট করুন এবং ৩০ সেকেন্ডেরও কম সময়ে রিয়েল টাইমে প্রতি-বাক্য রায় দেখুন। উপরে বর্ণিত এনসেম্বল যুক্তি আপনার টেক্সটে চলে।
একটি একক-সংকেত ডিটেক্টরের একটি একক ব্যর্থতার মোড রয়েছে। আপনি যদি শুধুমাত্র পার্প্লেক্সিটির উপর নির্ভর করেন, পরিবর্তিত টোকেন সম্ভাবনা সহ একটি প্যারাফ্রেজড আউটপুট আপনাকে পরাজিত করে। আপনি যদি শুধুমাত্র একটি সুপারভাইজড ক্লাসিফায়ারের উপর নির্ভর করেন, আউট-অফ-ডিস্ট্রিবিউশন টেক্সট (একটি নতুন মডেল পরিবার, একটি নতুন লেখার ডোমেইন) আপনাকে পরাজিত করে। একটি এনসেম্বল দুর্বলতাগুলো গড় করে: যে প্যারাফ্রেজ পার্প্লেক্সিটি পরাজিত করে সম্ভবত এখনো সুপারভাইজড হেড ট্রিপ করে, এবং উল্টোটা।
আমাদের প্রোডাকশন ডিটেক্টর স্পষ্টভাবে এনসেম্বল করা: ৩৫% Binoculars (জিরো-শট, মডেল-অ্যাগনোস্টিক, আউট-অফ-ডিস্ট্রিবিউশনে দৃঢ়) + ৬৫% ModernBERT (সুপারভাইজড, ডোমেইন-নির্দিষ্ট, ইন-ডিস্ট্রিবিউশন টেক্সটে উচ্চ নির্ভুলতা)। ওজনগুলো অভিজ্ঞতামূলকভাবে বেছে নেওয়া হয়েছিল — এনসেম্বল AUC সর্বাধিক হয়েছিল যখন ModernBERT আধিপত্য করেছিল কিন্তু Binoculars প্রান্তিক ক্ষেত্রে ভেটো ক্ষমতা বজায় রেখেছিল।
পরিণতি: একটি হিউম্যানাইজার টুলকে এখন আমাদের রায় ফাঁকি দেওয়ার জন্য একসাথে দুটি উল্লেখযোগ্যভাবে ভিন্ন সনাক্তকরণ আর্কিটেকচার পরাজিত করতে হবে। পাবলিক হিউম্যানাইজাররা সাধারণত একটি একক টার্গেট ডিটেক্টরের বিরুদ্ধে প্রশিক্ষিত, যার মানে তারা প্রায়শই সেই নির্দিষ্ট ডিটেক্টরের বিরুদ্ধে সফল হয় কিন্তু একটি এনসেম্বলের বিরুদ্ধে ব্যর্থ হয়। বর্তমান অস্ত্র প্রতিযোগিতায় এটি সনাক্তকরণের প্রাথমিক কাঠামোগত সুবিধা।
২০২৬–২০২৭ জুড়ে আমাদের কী আশা করা উচিত? GPT-6 এবং Claude 5 সম্ভবত বছরের মাঝামাঝি রিলিজ; উভয়ই ব্যবধান আরও সংকুচিত করবে। ওপেন-ওয়েটস মডেল — Llama 4, Qwen 4 — উচ্চ-মানের উৎপাদন পণ্যায়ন অব্যাহত রাখবে এবং হিউম্যানাইজারগুলো স্কেলে চালানো সস্তা করে তুলবে। ফ্রন্টিয়ার মডেলে সনাক্তকরণ AUC সম্ভবত রিলিজের পর প্রথম বছরে ০.৮০–০.৯০ ব্যান্ডে নামবে পুনরায় প্রশিক্ষণ সংশোধন করার আগে।
প্রতিরক্ষা পক্ষে: মাল্টি-মোডাল সংকেত (টাইপিং গতিবিদ্যা, সম্পাদনা ইতিহাস, একটি পরিচিত কর্পাসের বিরুদ্ধে লেখকত্ব যাচাইকরণ) ২৪ মাসের মধ্যে বিশুদ্ধ টেক্সট-ভিত্তিক সনাক্তকরণের চেয়ে বেশি গুরুত্বপূর্ণ হওয়ার সম্ভাবনা রয়েছে। আমাদের টেক্সট-অনলি ডিটেক্টর প্রথম ফিল্টার হিসেবে থাকবে কিন্তু একটি সমৃদ্ধ প্রমাণ স্তূপে ক্রমবর্ধমানভাবে একটি ভোটিং সদস্য হবে।
সৎ মূল বিষয়: বিশুদ্ধ টেক্সট-ভিত্তিক সনাক্তকরণ কখনো ১০০% পৌঁছাবে না। এটি ইন-ডিস্ট্রিবিউশন টেক্সটে ৯০–৯৫% AUC এবং ফ্রন্টিয়ার মডেলে ৭৫–৮৫% এর কাছাকাছি কোথাও মালভূমিতে পৌঁছাবে। যদি আপনার ওয়ার্কফ্লো নিশ্চিততার প্রয়োজন হয়, আপনার স্কোরের বাইরে প্রমাণ প্রয়োজন। যদি আপনার ওয়ার্কফ্লো মানব পর্যালোচনাকে অগ্রাধিকার দেওয়ার জন্য একটি শক্তিশালী সংকেতের প্রয়োজন হয়, টেক্সট-ভিত্তিক সনাক্তকরণ দরকারী এবং কিছুই না করার চেয়ে পরিমাপযোগ্যভাবে ভালো।
এই নিবন্ধটি AI টেক্সট সনাক্তকরণের কাঠামোগত বৈশিষ্ট্য বর্ণনা করে। নির্দিষ্ট সংখ্যাগুলো আমাদের অভ্যন্তরীণ ভ্যালিডেশনকে নির্দেশ করে এবং সাধারণীকৃত নাও হতে পারে। নতুন গবেষণা এবং জেনারেটর রিলিজ যেমন প্রয়োজন হয় আমরা এই পৃষ্ঠা আপডেট করি।