বাড়ি › কোন AI শনাক্ত করা সবচেয়ে কঠিন? GPT বনাম Claude বনাম Gemini | চৌর্যবৃত্তি শনাক্তকারী

কোন AI শনাক্ত করা সবচেয়ে কঠিন? GPT বনাম Claude বনাম Gemini বনাম Llama

সব AI পাঠ্য সমানভাবে শনাক্তযোগ্য নয়। এখানে আমাদের প্রতি-জেনারেটর বেঞ্চমার্কের ফলাফল রয়েছে — কোন মডেল পরিবারগুলি আমাদের ডিটেক্টর প্রায়-নিখুঁত নির্ভুলতার সাথে ধরে, কোনগুলির সাথে এটি লড়াই করে, এবং এটি আপনাকে একটি শনাক্তকরণ কর্মপ্রবাহ বেছে নেওয়া সম্পর্কে কী বলে।

2026-04-17 · Plagiarism Detector Team

সংক্ষিপ্ত উত্তর — লিডারবোর্ড

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

আমাদের যাচাইকরণ সেটে সহজ থেকে কঠিন শনাক্তের ক্রমানুসারে সাজানো হয়েছে। বিস্তার প্রশস্ত — কিছু মডেল পরিবারে AUC ০.৯৯ ছাড়িয়ে যায় যখন অন্যগুলি ০.৮০-এর ঘরে নেমে যায়। শনাক্তকরণের কঠিনতা মডেলের আকার, নির্দেশ-টিউনিং পরিশীলতা, এবং আউটপুট বৈচিত্র্যের সাথে সম্পর্কযুক্ত।

সম্পূর্ণ প্রতি-জেনারেটর বিভাজন পদ্ধতির জন্য, আমাদের নির্ভুলতা বেঞ্চমার্ক পেজ দেখুন। এই নিবন্ধটি ব্যবহারকারীদের জন্য সেই ডেটার ব্যবহারিক প্রভাব সংক্ষিপ্ত করে যারা কোন ডিটেক্টরকে বিশ্বাস করবেন এবং কোন মডেল ব্যবহার করবেন তা বেছে নিচ্ছেন।

OpenAI পরিবার — GPT

GPT-3.5 আমাদের সেটে শনাক্ত করা সবচেয়ে সহজ আধুনিক মডেল — AUC [AUC: ?]। লেগ্যাসি জেনারেশন আর্টিফ্যাক্ট (পুনরাবৃত্তি, হেজিং, নিস্তেজ রেজিস্টার) স্পষ্টতই বিদ্যমান। GPT-4 AUC [AUC: ?]-তে নামে, GPT-4o [AUC: ?]-তে, ক্রমশ উন্নত ক্যালিব্রেশন প্রতিফলিত করে। GPT-5.x পরিবারের মধ্যে কঠিনতম — AUC [AUC: ?] — কারণ নির্দেশ-টিউনিং টিম স্পষ্টভাবে শনাক্তকরণ-আর্টিফ্যাক্ট অপসারণকে লক্ষ্যবস্তু করেছিল।

ব্যবহারিক প্রভাব: একাডেমিক কর্মপ্রবাহ যা GPT-3.5-যুগের প্রতারণা নিয়ে উদ্বিগ্ন তারা শনাক্তকরণের উপর ব্যাপকভাবে নির্ভর করতে পারে। GPT-5 নিয়ে উদ্বিগ্ন কর্মপ্রবাহগুলিকে আমাদের শিক্ষক কর্মপ্রবাহ গাইড-এ বর্ণিত অনুসারে শনাক্তকরণকে প্রাসঙ্গিক প্রমাণের সাথে যুক্ত করতে হবে।

তাপমাত্রা সেটিংস গুরুত্বপূর্ণ। কম-তাপমাত্রার আউটপুট (t≤০.৫) শনাক্ত করা সহজ কারণ এগুলি সংকীর্ণ শব্দভান্ডারে সম্ভাবনার ভর কেন্দ্রীভূত করে। বেশিরভাগ চ্যাট ইন্টারফেস ডিফল্টরূপে t≈০.৭-তে চলে, পাঠ্যকে মাঝারিভাবে শনাক্তযোগ্য অঞ্চলে রাখে। প্রতিকূল ব্যবহারকারীরা স্পষ্টভাবে তাপমাত্রা বাড়ায় বা পরিসর বিস্তার করতে এবং শনাক্তকরণ এড়াতে বৈচিত্র্যময় ডিকোডিং ব্যবহার করে — আমাদের এনসেম্বল আংশিকভাবে এটি সংশোধন করে তবে সম্পূর্ণরূপে নয়।

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]। Claude 3.5 Sonnet: [AUC: ?]। Claude 4 Opus: [AUC: ?]। Claude 4.5 Sonnet: [AUC: ?]। Claude পরিবার ধারাবাহিকভাবে একই প্রজন্মের GPT মডেলের তুলনায় কম পুনরাবৃত্তিমূলক, আরও শৈলীগতভাবে বৈচিত্র্যময় পাঠ্য তৈরি করে, যা এটিকে পরিসংখ্যান পদ্ধতিতে শনাক্ত করা কঠিন করে তোলে।

Claude-এর সাংবিধানিক-AI প্রশিক্ষণ বিশেষভাবে “মেশিন টেলস”কে লক্ষ্য করে যা আমাদের সুপারভাইজড ক্লাসিফায়ার শেখে — হেজিং প্যাটার্ন, নির্দিষ্ট সংযোজকের অতিরিক্ত ব্যবহার, অনুমানযোগ্য অনুচ্ছেদ কাঠামো। এটি একটি প্রত্যক্ষ প্রতিকূল সম্পর্ক: জেনারেটরকে এমন বৈশিষ্ট্যগুলির বিরুদ্ধে প্রশিক্ষিত করা হয় যার উপর ডিটেক্টর নির্ভর করে।

Claude 4.5 Sonnet এবং GPT-5.x কঠিনতায় কাছাকাছি। আমাদের যাচাইকরণ ডেটায় তাদের স্কোর বিতরণ মানব বেসলাইনের সাথে সবচেয়ে বেশি ওভারল্যাপ করে। যদি আপনার কর্মপ্রবাহ এই মডেলগুলির যেকোনো একটিকে লক্ষ্য করে, ডিফল্ট থ্রেশহোল্ডে হ্রাস প্রাপ্ত রিকল আশা করুন এবং উচ্চ-সংবেদনশীলতা স্ক্রিনিংয়ের জন্য F1-অপ্টিমালে কমানোর কথা বিবেচনা করুন।

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]। Gemini 2.0: [AUC: ?]। Gemini 2.5: [AUC: ?]। Gemini সংস্করণ জুড়ে সবচেয়ে পরিবর্তনশীল শনাক্তকরণ কর্মক্ষমতা দেখিয়েছে — কিছু মধ্যবর্তী রিলিজ উন্নতি আসার আগে সাময়িকভাবে রিগ্রেস করেছে।

Gemini-এর মাল্টি-মোডাল প্রশিক্ষণ মানে শুধুমাত্র-পাঠ্য আউটপুট কখনো কখনো ছবি-ক্যাপশন বা কোড-ব্যাখ্যা ডোমেন থেকে অবশিষ্টাংশ প্যাটার্ন বহন করে। আমাদের ডিটেক্টর এগুলি সনাক্ত করে, যা বিশুদ্ধ গদ্যের তুলনায় মিশ্র-ডোমেন প্রম্পটে Gemini-এর সামান্য উচ্চ শনাক্তযোগ্যতা ব্যাখ্যা করে।

Google Workspace ব্যবহারকারীদের জন্য যাদের শিক্ষার্থী বা কর্মীরা Docs-এর মাধ্যমে Gemini ব্যবহার করেন, শনাক্তকরণ সংকেত raw API আউটপুটের মতো। আমরা সরাসরি Gemini API ব্যবহার থেকে আলাদা ওয়ার্কস্পেস-ইন্টিগ্রেশন-নির্দিষ্ট ফাঁকি দেওয়ার প্যাটার্ন পর্যবেক্ষণ করিনি।

যেকোনো মডেল থেকে একটি নমুনা পরীক্ষা করুন

যেকোনো LLM থেকে আউটপুট পেস্ট করুন এবং প্রতি-বাক্য রায় দেখুন। আমাদের ডিটেক্টর সমস্ত ২২টি মডেল পরিবারকে একটি একক এনসেম্বল চেক হিসেবে গণ্য করে।

Meta এবং ওপেন-ওয়েটস মডেল

Llama 3.1: AUC [AUC: ?]। Llama 3.3: [AUC: ?]। Qwen 2.5: [AUC: ?]। Qwen 3: [AUC: ?]। DeepSeek R1: [AUC: ?]। Mistral Large: [AUC: ?]। ওপেন-ওয়েটস মডেলগুলি বন্ধ মডেলগুলির চেয়ে বিস্তৃত পরিসর জুড়ে বিস্তৃত — ফাইন-টিউনিং ভেরিয়েন্ট, কোয়ান্টাইজড ডিপ্লয়মেন্ট, এবং কমিউনিটি-পরিবর্তিত চেকপয়েন্ট সবই সূক্ষ্মভাবে ভিন্ন আউটপুট তৈরি করে।

ওপেন-ওয়েটসে শনাক্তকরণ কৌশলগতভাবে গুরুত্বপূর্ণ কারণ হিউম্যানাইজার টুলগুলি সাধারণত ওপেন-ওয়েটস মডেলে তৈরি — Llama এবং Mistral ডেরিভেটিভ কম খরচে স্থানীয়ভাবে চলে, তাই প্যারাফ্রেজিং এবং স্টাইল-ট্রান্সফার সেবাগুলি সেগুলিকে সস্তায় ব্যবহার করে। যদি আপনার উদ্বেগ হিউম্যানাইজড AI হয়, তাহলে আপনি শেষ পর্যন্ত Llama-পরিবার জেনারেশনের বিরুদ্ধে রক্ষা করছেন।

DeepSeek R1 এবং o3-mini (OpenAI রিজনিং মডেল) আলাদা উল্লেখের দাবি রাখে। উভয়ই রিজনিং-চেইন আর্টিফ্যাক্ট সহ পাঠ্য তৈরি করে — আউটপুটে দৃশ্যমান স্পষ্ট ধাপে-ধাপে যুক্তি — যা আমাদের ডিটেক্টর চিনতে শিখেছে। রিজনিং মডেলগুলি বর্তমানে এই কারণে তাদের বেস-চ্যাট সমকক্ষের চেয়ে শনাক্ত করা সহজ।

এই পার্থক্যগুলি আপনার জন্য কী অর্থ বহন করে

যদি আপনি লেখার জন্য একটি মডেল বেছে নিচ্ছেন এবং শনাক্তকরণ আপনার উদ্বেগ না হয়, তাহলে Claude 4.5 Sonnet এবং GPT-5 সবচেয়ে কঠিন-শনাক্তযোগ্য। যদি আপনি একটি শনাক্তকরণ কর্মপ্রবাহ তৈরি করছেন, তাহলে আপনি আসলে যে মডেলগুলি দেখেন তার জন্য অগ্রাধিকার দিন: বেশিরভাগ একাডেমিক অপব্যবহার এখনও বিনামূল্যের ইন্টারফেসের মাধ্যমে GPT-4/5-এ চলে; বেশিরভাগ কন্টেন্ট-ফার্মিং Llama-ডেরিভেটিভ হিউম্যানাইজারে চলে।

একটি একক মডেল পরিবারে প্রশিক্ষিত একটি একক ডিটেক্টর অন্যগুলিতে সবচেয়ে খারাপ পারফর্ম করবে। আমাদের এনসেম্বল পদ্ধতি সমস্ত ২২টি জেনারেটর থেকে নমুনায় প্রশিক্ষণ নেয়, যে কারণে কঠিন মামলায় (Claude 4.5, GPT-5) প্রতি-মডেল AUC এখনও ০.৯০-এর উপরে থাকে যখন যেকোনো একক-মডেল-প্রশিক্ষিত ডিটেক্টর ০.৮০-এর নিচে নেমে যাবে।

অন্তর্নিহিত প্রবণতা: শনাক্তকরণের কঠিনতা জেনারেটর রিলিজ ক্যাডেন্সের চেয়ে দ্রুত বাড়ছে। প্রতিটি নতুন ফ্ল্যাগশিপ আগেরটির চেয়ে শনাক্ত করা কঠিন, পুনরায় প্রশিক্ষণ ব্যবধান বন্ধ করে কিন্তু সম্পূর্ণরূপে নয়। ২০২৬–২০২৭ বেসলাইন ফ্রন্টিয়ার মডেলগুলিতে কম AUC এবং লেগ্যাসি মডেলগুলিতে মোটামুটি স্থির হবে বলে আশা করুন।

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

কিছু মডেল শনাক্ত করা কঠিন হলে, আমার কি আদৌ ডিটেক্টর ব্যবহার এড়ানো উচিত?

না — এমনকি কঠিনতম মডেল পরিবারেও আমাদের AUC ০.৮৫-এর উপরে, যা একটি শক্তিশালী সংকেত। প্রশ্ন হলো আপনি সংকেতটি কীভাবে ব্যবহার করেন। কঠিন-শনাক্তযোগ্য মডেলের জন্য, স্কোরকে সহায়ক প্রমাণের সাথে যুক্ত করুন (সম্পাদনা ইতিহাস, ক্লাস-ভিতরের কাজ, শিক্ষার্থীর কথোপকথন)। সহজ মডেলের জন্য, স্কোরটি একাই প্রায়শই যথেষ্ট।

আমি যদি শনাক্তকরণ এড়াতে চাই তাহলে কোন মডেল ব্যবহার করা উচিত?

আমরা সরাসরি এই প্রশ্নের উত্তর দিই না — আমরা একটি শনাক্তকরণ টুল চালাই, ফাঁকি দেওয়ার গাইড নয়। আমরা যা বলব: শনাক্তযোগ্য-বনাম-অশনাক্তযোগ্য একটি মডেল বেছে নেওয়ার সঠিক অক্ষ নয়। গুণমান, খরচ, এবং উদ্দেশ্যের জন্য উপযুক্ততা শনাক্তকরণের কঠিনতার চেয়ে অনেক বেশি গুরুত্বপূর্ণ। যদি আপনি AI সহায়তায় বৈধভাবে লিখছেন, প্রকাশ এবং স্বচ্ছ কর্মপ্রবাহ সরঞ্জামটি লুকানোর চেয়ে বেশি গুরুত্বপূর্ণ।

ওপেন-ওয়েটস মডেল ভেরিয়েন্টের কি ভিন্ন শনাক্তকরণ প্রোফাইল আছে?

হ্যাঁ, এবং অর্থপূর্ণভাবে। একটি নির্দিষ্ট লেখার শৈলীর জন্য প্রশিক্ষিত একটি কমিউনিটি-ফাইন-টিউনড Llama 3.3 ভেরিয়েন্ট সাধারণ Llama 3.3-এর চেয়ে ভিন্নভাবে স্কোর করা পাঠ্য তৈরি করতে পারে। আমাদের বেঞ্চমার্ক স্ট্যান্ডার্ড চেকপয়েন্ট কভার করে; কাস্টম ফাইন-টিউনস সহজ হতে পারে (যদি তারা আউটপুট বিতরণ সংকীর্ণ করে) বা কঠিন (যদি তারা স্পষ্টভাবে শনাক্তকরণের বিরুদ্ধে প্রতিকূল-প্রশিক্ষণ নেয়)।

তাপমাত্রা এবং স্যাম্পলিং শনাক্তযোগ্যতাকে কীভাবে প্রভাবিত করে?

উচ্চ তাপমাত্রা এবং আরও বৈচিত্র্যময় স্যাম্পলিং সাধারণত শনাক্তযোগ্যতা হ্রাস করে কারণ এগুলি আউটপুট বিতরণ বিস্তৃত করে। কম-তাপমাত্রার গ্রিডি ডিকোডিং শনাক্ত করা সবচেয়ে সহজ। বেশিরভাগ প্রোডাকশন চ্যাট ইন্টারফেস নিউক্লিয়াস স্যাম্পলিংয়ের সাথে t≈০.৭–১.০ চালায়, যা সেগুলিকে মাঝারিভাবে শনাক্তযোগ্য শাসনে রাখে — আমাদের এনসেম্বল ডিফল্ট পরিসর জুড়ে একইভাবে পারফর্ম করে।

GPT-6 বা Claude 5 কখন আসবে এবং আমার কী আশা করা উচিত?

২০২৬ সালের মাঝামাঝি উভয়ের জন্য সর্বসম্মত পূর্বাভাস। লঞ্চের পরে প্রথম ৪–৮ সপ্তাহের জন্য নতুন পরিবারগুলিতে শনাক্তকরণ AUC ০.৮০–০.৮৫ পরিসরে নেমে আসার আশা করুন যখন আমরা নমুনা সংগ্রহ করি এবং পুনরায় প্রশিক্ষণ নিই। ঐতিহাসিক সংস্করণ থেকে বোঝা যায় যে মডেলটি ব্যাপকভাবে উপলব্ধ হলে ৮–১২ সপ্তাহের মধ্যে পূর্ণ পুনরুদ্ধার হয়; বিরল বা সীমিত-অ্যাক্সেস মডেলের জন্য দীর্ঘ সময়।

প্রতি-মডেল AUC সংখ্যাগুলি আমাদের অভ্যন্তরীণ যাচাইকরণ থেকে প্রাপ্ত এবং সাধারণীকরণ নাও হতে পারে। প্রতিটি মডেলের কঠিনতা সময়ের সাথে পরিবর্তিত হয় কারণ জেনারেটর এবং আমাদের প্রশিক্ষণ কর্পাস উভয়ই বিকশিত হয়। বর্তমান ডেটা ২০২৬-০৪ বেঞ্চমার্ক রানকে প্রতিফলিত করে।