সব AI পাঠ্য সমানভাবে শনাক্তযোগ্য নয়। এখানে আমাদের প্রতি-জেনারেটর বেঞ্চমার্কের ফলাফল রয়েছে — কোন মডেল পরিবারগুলি আমাদের ডিটেক্টর প্রায়-নিখুঁত নির্ভুলতার সাথে ধরে, কোনগুলির সাথে এটি লড়াই করে, এবং এটি আপনাকে একটি শনাক্তকরণ কর্মপ্রবাহ বেছে নেওয়া সম্পর্কে কী বলে।
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
আমাদের যাচাইকরণ সেটে সহজ থেকে কঠিন শনাক্তের ক্রমানুসারে সাজানো হয়েছে। বিস্তার প্রশস্ত — কিছু মডেল পরিবারে AUC ০.৯৯ ছাড়িয়ে যায় যখন অন্যগুলি ০.৮০-এর ঘরে নেমে যায়। শনাক্তকরণের কঠিনতা মডেলের আকার, নির্দেশ-টিউনিং পরিশীলতা, এবং আউটপুট বৈচিত্র্যের সাথে সম্পর্কযুক্ত।
সম্পূর্ণ প্রতি-জেনারেটর বিভাজন পদ্ধতির জন্য, আমাদের নির্ভুলতা বেঞ্চমার্ক পেজ দেখুন। এই নিবন্ধটি ব্যবহারকারীদের জন্য সেই ডেটার ব্যবহারিক প্রভাব সংক্ষিপ্ত করে যারা কোন ডিটেক্টরকে বিশ্বাস করবেন এবং কোন মডেল ব্যবহার করবেন তা বেছে নিচ্ছেন।
GPT-3.5 আমাদের সেটে শনাক্ত করা সবচেয়ে সহজ আধুনিক মডেল — AUC [AUC: ?]। লেগ্যাসি জেনারেশন আর্টিফ্যাক্ট (পুনরাবৃত্তি, হেজিং, নিস্তেজ রেজিস্টার) স্পষ্টতই বিদ্যমান। GPT-4 AUC [AUC: ?]-তে নামে, GPT-4o [AUC: ?]-তে, ক্রমশ উন্নত ক্যালিব্রেশন প্রতিফলিত করে। GPT-5.x পরিবারের মধ্যে কঠিনতম — AUC [AUC: ?] — কারণ নির্দেশ-টিউনিং টিম স্পষ্টভাবে শনাক্তকরণ-আর্টিফ্যাক্ট অপসারণকে লক্ষ্যবস্তু করেছিল।
ব্যবহারিক প্রভাব: একাডেমিক কর্মপ্রবাহ যা GPT-3.5-যুগের প্রতারণা নিয়ে উদ্বিগ্ন তারা শনাক্তকরণের উপর ব্যাপকভাবে নির্ভর করতে পারে। GPT-5 নিয়ে উদ্বিগ্ন কর্মপ্রবাহগুলিকে আমাদের শিক্ষক কর্মপ্রবাহ গাইড-এ বর্ণিত অনুসারে শনাক্তকরণকে প্রাসঙ্গিক প্রমাণের সাথে যুক্ত করতে হবে।
তাপমাত্রা সেটিংস গুরুত্বপূর্ণ। কম-তাপমাত্রার আউটপুট (t≤০.৫) শনাক্ত করা সহজ কারণ এগুলি সংকীর্ণ শব্দভান্ডারে সম্ভাবনার ভর কেন্দ্রীভূত করে। বেশিরভাগ চ্যাট ইন্টারফেস ডিফল্টরূপে t≈০.৭-তে চলে, পাঠ্যকে মাঝারিভাবে শনাক্তযোগ্য অঞ্চলে রাখে। প্রতিকূল ব্যবহারকারীরা স্পষ্টভাবে তাপমাত্রা বাড়ায় বা পরিসর বিস্তার করতে এবং শনাক্তকরণ এড়াতে বৈচিত্র্যময় ডিকোডিং ব্যবহার করে — আমাদের এনসেম্বল আংশিকভাবে এটি সংশোধন করে তবে সম্পূর্ণরূপে নয়।
Claude 3 Opus: AUC [AUC: ?]। Claude 3.5 Sonnet: [AUC: ?]। Claude 4 Opus: [AUC: ?]। Claude 4.5 Sonnet: [AUC: ?]। Claude পরিবার ধারাবাহিকভাবে একই প্রজন্মের GPT মডেলের তুলনায় কম পুনরাবৃত্তিমূলক, আরও শৈলীগতভাবে বৈচিত্র্যময় পাঠ্য তৈরি করে, যা এটিকে পরিসংখ্যান পদ্ধতিতে শনাক্ত করা কঠিন করে তোলে।
Claude-এর সাংবিধানিক-AI প্রশিক্ষণ বিশেষভাবে “মেশিন টেলস”কে লক্ষ্য করে যা আমাদের সুপারভাইজড ক্লাসিফায়ার শেখে — হেজিং প্যাটার্ন, নির্দিষ্ট সংযোজকের অতিরিক্ত ব্যবহার, অনুমানযোগ্য অনুচ্ছেদ কাঠামো। এটি একটি প্রত্যক্ষ প্রতিকূল সম্পর্ক: জেনারেটরকে এমন বৈশিষ্ট্যগুলির বিরুদ্ধে প্রশিক্ষিত করা হয় যার উপর ডিটেক্টর নির্ভর করে।
Claude 4.5 Sonnet এবং GPT-5.x কঠিনতায় কাছাকাছি। আমাদের যাচাইকরণ ডেটায় তাদের স্কোর বিতরণ মানব বেসলাইনের সাথে সবচেয়ে বেশি ওভারল্যাপ করে। যদি আপনার কর্মপ্রবাহ এই মডেলগুলির যেকোনো একটিকে লক্ষ্য করে, ডিফল্ট থ্রেশহোল্ডে হ্রাস প্রাপ্ত রিকল আশা করুন এবং উচ্চ-সংবেদনশীলতা স্ক্রিনিংয়ের জন্য F1-অপ্টিমালে কমানোর কথা বিবেচনা করুন।
Gemini 1.5 Pro: AUC [AUC: ?]। Gemini 2.0: [AUC: ?]। Gemini 2.5: [AUC: ?]। Gemini সংস্করণ জুড়ে সবচেয়ে পরিবর্তনশীল শনাক্তকরণ কর্মক্ষমতা দেখিয়েছে — কিছু মধ্যবর্তী রিলিজ উন্নতি আসার আগে সাময়িকভাবে রিগ্রেস করেছে।
Gemini-এর মাল্টি-মোডাল প্রশিক্ষণ মানে শুধুমাত্র-পাঠ্য আউটপুট কখনো কখনো ছবি-ক্যাপশন বা কোড-ব্যাখ্যা ডোমেন থেকে অবশিষ্টাংশ প্যাটার্ন বহন করে। আমাদের ডিটেক্টর এগুলি সনাক্ত করে, যা বিশুদ্ধ গদ্যের তুলনায় মিশ্র-ডোমেন প্রম্পটে Gemini-এর সামান্য উচ্চ শনাক্তযোগ্যতা ব্যাখ্যা করে।
Google Workspace ব্যবহারকারীদের জন্য যাদের শিক্ষার্থী বা কর্মীরা Docs-এর মাধ্যমে Gemini ব্যবহার করেন, শনাক্তকরণ সংকেত raw API আউটপুটের মতো। আমরা সরাসরি Gemini API ব্যবহার থেকে আলাদা ওয়ার্কস্পেস-ইন্টিগ্রেশন-নির্দিষ্ট ফাঁকি দেওয়ার প্যাটার্ন পর্যবেক্ষণ করিনি।
যেকোনো LLM থেকে আউটপুট পেস্ট করুন এবং প্রতি-বাক্য রায় দেখুন। আমাদের ডিটেক্টর সমস্ত ২২টি মডেল পরিবারকে একটি একক এনসেম্বল চেক হিসেবে গণ্য করে।
Llama 3.1: AUC [AUC: ?]। Llama 3.3: [AUC: ?]। Qwen 2.5: [AUC: ?]। Qwen 3: [AUC: ?]। DeepSeek R1: [AUC: ?]। Mistral Large: [AUC: ?]। ওপেন-ওয়েটস মডেলগুলি বন্ধ মডেলগুলির চেয়ে বিস্তৃত পরিসর জুড়ে বিস্তৃত — ফাইন-টিউনিং ভেরিয়েন্ট, কোয়ান্টাইজড ডিপ্লয়মেন্ট, এবং কমিউনিটি-পরিবর্তিত চেকপয়েন্ট সবই সূক্ষ্মভাবে ভিন্ন আউটপুট তৈরি করে।
ওপেন-ওয়েটসে শনাক্তকরণ কৌশলগতভাবে গুরুত্বপূর্ণ কারণ হিউম্যানাইজার টুলগুলি সাধারণত ওপেন-ওয়েটস মডেলে তৈরি — Llama এবং Mistral ডেরিভেটিভ কম খরচে স্থানীয়ভাবে চলে, তাই প্যারাফ্রেজিং এবং স্টাইল-ট্রান্সফার সেবাগুলি সেগুলিকে সস্তায় ব্যবহার করে। যদি আপনার উদ্বেগ হিউম্যানাইজড AI হয়, তাহলে আপনি শেষ পর্যন্ত Llama-পরিবার জেনারেশনের বিরুদ্ধে রক্ষা করছেন।
DeepSeek R1 এবং o3-mini (OpenAI রিজনিং মডেল) আলাদা উল্লেখের দাবি রাখে। উভয়ই রিজনিং-চেইন আর্টিফ্যাক্ট সহ পাঠ্য তৈরি করে — আউটপুটে দৃশ্যমান স্পষ্ট ধাপে-ধাপে যুক্তি — যা আমাদের ডিটেক্টর চিনতে শিখেছে। রিজনিং মডেলগুলি বর্তমানে এই কারণে তাদের বেস-চ্যাট সমকক্ষের চেয়ে শনাক্ত করা সহজ।
যদি আপনি লেখার জন্য একটি মডেল বেছে নিচ্ছেন এবং শনাক্তকরণ আপনার উদ্বেগ না হয়, তাহলে Claude 4.5 Sonnet এবং GPT-5 সবচেয়ে কঠিন-শনাক্তযোগ্য। যদি আপনি একটি শনাক্তকরণ কর্মপ্রবাহ তৈরি করছেন, তাহলে আপনি আসলে যে মডেলগুলি দেখেন তার জন্য অগ্রাধিকার দিন: বেশিরভাগ একাডেমিক অপব্যবহার এখনও বিনামূল্যের ইন্টারফেসের মাধ্যমে GPT-4/5-এ চলে; বেশিরভাগ কন্টেন্ট-ফার্মিং Llama-ডেরিভেটিভ হিউম্যানাইজারে চলে।
একটি একক মডেল পরিবারে প্রশিক্ষিত একটি একক ডিটেক্টর অন্যগুলিতে সবচেয়ে খারাপ পারফর্ম করবে। আমাদের এনসেম্বল পদ্ধতি সমস্ত ২২টি জেনারেটর থেকে নমুনায় প্রশিক্ষণ নেয়, যে কারণে কঠিন মামলায় (Claude 4.5, GPT-5) প্রতি-মডেল AUC এখনও ০.৯০-এর উপরে থাকে যখন যেকোনো একক-মডেল-প্রশিক্ষিত ডিটেক্টর ০.৮০-এর নিচে নেমে যাবে।
অন্তর্নিহিত প্রবণতা: শনাক্তকরণের কঠিনতা জেনারেটর রিলিজ ক্যাডেন্সের চেয়ে দ্রুত বাড়ছে। প্রতিটি নতুন ফ্ল্যাগশিপ আগেরটির চেয়ে শনাক্ত করা কঠিন, পুনরায় প্রশিক্ষণ ব্যবধান বন্ধ করে কিন্তু সম্পূর্ণরূপে নয়। ২০২৬–২০২৭ বেসলাইন ফ্রন্টিয়ার মডেলগুলিতে কম AUC এবং লেগ্যাসি মডেলগুলিতে মোটামুটি স্থির হবে বলে আশা করুন।
প্রতি-মডেল AUC সংখ্যাগুলি আমাদের অভ্যন্তরীণ যাচাইকরণ থেকে প্রাপ্ত এবং সাধারণীকরণ নাও হতে পারে। প্রতিটি মডেলের কঠিনতা সময়ের সাথে পরিবর্তিত হয় কারণ জেনারেটর এবং আমাদের প্রশিক্ষণ কর্পাস উভয়ই বিকশিত হয়। বর্তমান ডেটা ২০২৬-০৪ বেঞ্চমার্ক রানকে প্রতিফলিত করে।