বাড়ি › AI সনাক্তকরণ কতটা নির্ভুল? ২২টি LLM জুড়ে বেঞ্চমার্ক | চৌর্যবৃত্তি শনাক্তকারী

AI সনাক্তকরণ কতটা নির্ভুল? ২২টি LLM জুড়ে আমাদের বেঞ্চমার্ক

আমরা GPT-5, Claude 4, Gemini 2 এবং Llama 3 সহ ২২টি জেনারেটিভ মডেলের বিপরীতে আমাদের AI ডিটেক্টরের বাস্তব-জগত নির্ভুলতা প্রকাশ করি। প্রতি-মডেল টেবিল, সৎ সীমাবদ্ধতা এবং গবেষকদের জন্য ডাউনলোডযোগ্য ডেটাসেট।

2026-04-17 · Plagiarism Detector Team

কেন আমরা আমাদের নির্ভুলতার সংখ্যা প্রকাশ করি

বেশিরভাগ AI সনাক্তকরণ সরঞ্জাম আপনাকে একটি একক অস্বচ্ছ স্কোর বিশ্বাস করতে বলে। আমরা মনে করি আপনি প্রমাণ পাওয়ার যোগ্য। এই পৃষ্ঠায় আমরা আমাদের অভ্যন্তরীণ ভ্যালিডেশন রানের সম্পূর্ণ ফলাফল শেয়ার করি — আমরা যে প্রতিটি জেনারেটর পরীক্ষা করেছি, প্রতিটিতে AUC-ROC স্কোর, যে প্রবন্ধের ধরনগুলো আমাদের সবচেয়ে বেশি সমস্যা দিয়েছে, এবং আমরা প্রোডাকশনে যে ডিসিশন থ্রেশহোল্ড ব্যবহার করি।

স্বচ্ছতার এই স্তরটি AI-সনাক্তকরণ ক্ষেত্রে অস্বাভাবিক। বেশিরভাগ প্রতিযোগী — plagiarism-checker বিক্রেতা, বিশেষজ্ঞ AI-সনাক্তকরণ পরিষেবা, সাধারণ SaaS সরঞ্জাম — হয় কোনো নির্ভুলতার ডেটা প্রকাশ করে না বা একটি একক বাছাইকৃত সংখ্যা প্রকাশ করে। এই প্যাটার্নটি টেকসই নয়: শিক্ষাবিদ, প্রকাশক এবং গবেষকদের কোনো সরঞ্জামে নির্ভর করার আগে পুনরুৎপাদনযোগ্য বেঞ্চমার্ক প্রয়োজন।

আমাদের সংখ্যাগুলো আমাদের ModernBERT ডিটেক্টর প্রশিক্ষণে ব্যবহৃত ক্যালিব্রেশন কর্পাসের ১,০০০-স্যাম্পলের ভ্যালিডেশন স্প্লিট থেকে এসেছে। এই বেঞ্চমার্ককে চালিত করে একই পদ্ধতি আমাদের সরঞ্জামের মাধ্যমে আপনি যে প্রতিটি নথি জমা দেন তাতে চলে। ডেমোর জন্য কিছু আড়াল করা হয়নি।

পরীক্ষার কর্পাস এবং পদ্ধতি

ভ্যালিডেশন সেটে ১,২০০-স্যাম্পলের ক্যালিব্রেশন কর্পাস থেকে নেওয়া ১,০০০টি প্রবন্ধ রয়েছে: ৬০০টি মানব-লিখিত প্রবন্ধ (PAN25 শেয়ার্ড-টাস্ক ডেটা এবং PERSUADE আর্গুমেন্টেটিভ প্রবন্ধ ডেটাসেট থেকে) এবং ৬০০টি AI-উৎপন্ন প্রবন্ধ (নিয়ন্ত্রিত প্রম্পটিংয়ের অধীনে ২২টি স্বতন্ত্র বৃহৎ ভাষা মডেল দ্বারা তৈরি)। ৮০/২০ ট্রেনিং-ভ্যালিডেশন স্প্লিট স্থির এবং পুনরাবৃত্তিযোগ্য।

প্রতিটি স্যাম্পল বিচ্ছিন্নভাবে স্কোর করা হয়, কোনো মেটাডেটায় প্রবেশাধিকার নেই যা গ্রাউন্ড ট্রুথ ফাঁস করতে পারে। ডিটেক্টর [০, ১০০] পরিসরে একটি সম্ভাবনা ফেরত দেয় যা স্যাম্পলটি AI-উৎপন্ন হওয়ার সম্ভাবনা প্রতিনিধিত্ব করে। আমরা তারপর জেনারেটর প্রতি এবং প্রবন্ধ-ধরনের স্তরে রিসিভার-অপারেটিং-ক্যারেক্টারিস্টিক কার্ভের অধীনে এলাকা (AUC-ROC) গণনা করি।

সমস্ত থ্রেশহোল্ড, ট্রেনিং হাইপারপ্যারামিটার এবং কাঁচা সম্ভাবনার আউটপুট লগ করা হয়। ডেটাসেটটি নিজেই এই পৃষ্ঠার নীচে ডাউনলোডের জন্য উপলব্ধ — CSV ফরম্যাট, প্রতি স্যাম্পলে একটি সারি, জেনারেটর পরিচয়, প্রবন্ধ-ধরনের লেবেল, কাঁচা স্কোর এবং চূড়ান্ত বাইনারি রায় সহ।

শিরোনাম ফলাফল

সম্পূর্ণ ১,০০০-স্যাম্পলের সেট জুড়ে, আমাদের এনসেম্বল ডিটেক্টর AUC-ROC [AUC: 0.9884] অর্জন করে। আমরা প্রোডাকশনে যে ৫০% ডিসিশন থ্রেশহোল্ড ব্যবহার করি সেখানে: ভ্যালিডেশন সেটে মানব প্রবন্ধে ০টি মিথ্যা পজিটিভ, এবং AI প্রবন্ধে ৬০% রিকল। ২৬.৫৬% এর F1-সর্বোত্তম থ্রেশহোল্ডে, রিকল ২% মিথ্যা পজিটিভের বিনিময়ে ৯০%-এ ওঠে — এই ট্রেডঅফটি উচ্চ-সংবেদনশীলতার স্ক্রিনিং ওয়ার্কফ্লোর জন্য আরও উপযুক্ত।

আমাদের পাবলিক টুলে ডকুমেন্ট-স্তরের রায় রক্ষণশীল ৫০% থ্রেশহোল্ড ব্যবহার করে, সর্বোচ্চ রিকলের চেয়ে শূন্য মিথ্যা পজিটিভকে অগ্রাধিকার দেয়। শিক্ষক, প্রকাশক এবং গবেষকরা যখন আরও আক্রমণাত্মক ফ্ল্যাগিং চান তখন উইজেটের সংবেদনশীলতা স্লাইডারের মাধ্যমে এটি ওভাররাইড করতে পারেন।

তুলনার জন্য, Binoculars জিরো-শট কম্পোনেন্ট একা (একটি ২× Llama-3.1-8B সেটআপ) একাকী AUC [AUC: 0.8509] স্কোর করে। ফাইন-টিউনড ModernBERT কম্পোনেন্ট একা ইন-ডিস্ট্রিবিউশন প্রবন্ধে [AUC: 1.0000] এবং আউট-অফ-ডিস্ট্রিবিউশন টেক্সটে [AUC: 0.9069] স্কোর করে। এনসেম্বলটি যেকোনো একটি অক্ষে উভয়ের মাঝে বসে কিন্তু গড়ে উভয়কে ছাড়িয়ে যায় কারণ এটি তাদের পরিপূরক দুর্বলতা সংশোধন করে।

প্রতি-জেনারেটর বিভাজন

এখানে প্রতি-মডেল AUC-ROC টেবিল। মডেলগুলো আমাদের ভ্যালিডেশন সেটে সবচেয়ে সহজ থেকে সবচেয়ে কঠিনে সনাক্ত করার ক্রমে সাজানো হয়েছে। [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI মডেল: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]। Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]। Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]। Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]। অন্যান্য: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?]।

শিরোনামের প্যাটার্ন: নতুন, বড়, ইনস্ট্রাকশন-টিউনড মডেলগুলো এমন টেক্সট তৈরি করতে থাকে যা যেকোনো পরিসংখ্যানগত ডিটেক্টরের কাছে বেশি মানবিক দেখায়, আমাদের সহ। Claude 4.5 Sonnet এবং GPT-5.x হল সেই দুটি পরিবার যেখানে আমাদের স্কোর বিতরণ মানব বেসলাইনের সাথে সবচেয়ে বেশি ওভারল্যাপ করে। এটি ২০২৫ সালে প্রকাশিত প্রতিটি স্বাধীন গবেষণার সাথে মেলে — অস্ত্র প্রতিযোগিতা বাস্তব এবং মডেল আকার সনাক্তকরণের জন্য একটি সরাসরি বাধা।

ডিটেক্টর যেখানে সংগ্রাম করে

সব টেক্সট সমানভাবে সনাক্তযোগ্য নয়। আমরা প্রবন্ধের ধরন অনুযায়ী ফলাফল ভেঙে দেই — প্রতিটি PERSUADE প্রম্পট বিভাগ — এবং সেরা এবং সবচেয়ে খারাপের মধ্যে ব্যবধান ব্যাপক। [PER-TYPE TABLE]

আর্গুমেন্টেটিভ, পার্সুয়েসিভ এবং এক্সপোজিটরি প্রবন্ধ: ডিটেক্টরের শক্তিশালী ডোমেইন। AUC সাধারণত ০.৯৭–১.০০ কারণ ট্রেনিং কর্পাসগুলো এই স্টাইলগুলোকে বেশি গুরুত্ব দেয়। এখানেই বেশিরভাগ একাডেমিক-ইন্টিগ্রিটি ব্যবহারের ক্ষেত্রে পড়ে।

সৃজনশীল লেখা এবং সাহিত্যিক বিশ্লেষণ: আমাদের দুর্বলতম ডোমেইন। literary_analysis-এর জন্য AUC ০.৬৯-এ নেমে আসে — কল্পকাহিনীতে মানব শৈলী LLM আউটপুটের সাথে মিলে যায় এবং আমাদের সুপারভাইজড বা জিরো-শট কম্পোনেন্ট কেউই নির্ভরযোগ্যভাবে তাদের আলাদা করতে পারে না। কল্পকাহিনীতে উচ্চ AI স্কোরকে সন্দেহের সাথে দেখুন।

আপনার নিজের টেক্সটে ডিটেক্টর ব্যবহার করে দেখুন

যেকোনো নথি পেস্ট করুন এবং এই বেঞ্চমার্ক সংখ্যার জন্য আমরা যে একই প্রতি-বাক্য রায় এবং ডিসিশন থ্রেশহোল্ড ব্যবহার করি তা দেখুন। বিনামূল্যে, সাইনআপ ছাড়া।

সীমাবদ্ধতা এবং ব্যর্থতার মোড

তিন শ্রেণির টেক্সট আমাদের ভ্যালিডেশন সেট যা পরামর্শ দেয় তার চেয়ে বেশি ঘন ঘন আমাদের ডিটেক্টর এড়িয়ে যায়। হিউম্যানাইজড AI টেক্সট — একটি বিরোধিতামূলক প্যারাফ্রেজিং বা স্টাইল-ট্রান্সফার টুলের মাধ্যমে পাস করা আউটপুট — প্রায়শই মানব হিসেবে স্কোর করে এমনকি যখন অন্তর্নিহিত টেক্সটটি সম্পূর্ণভাবে উৎপন্ন হয়েছিল। সংক্ষিপ্ত টেক্সট (১০০ শব্দের কম) মোটেই শ্রেণিবদ্ধ করা কঠিন কারণ পর্যাপ্ত পরিসংখ্যানগত সংকেত নেই। অ-নেটিভ ইংরেজি লেখা AI-উৎপন্ন হিসেবে স্কোর করতে পারে কারণ LLM এবং ESL লেখকরা নির্দিষ্ট লেক্সিক্যাল এবং সিনট্যাকটিক পছন্দ শেয়ার করেন।

আমাদের ডিটেক্টর সম্ভাব্য, প্রমাণমূলক নয়। একটি উচ্চ AI স্কোর আরও তদন্ত করার জন্য একটি সংকেত, অসদাচরণের প্রমাণ নয়। আমরা দৃঢ়ভাবে প্রেক্ষাপটের সাথে স্কোর যুক্ত করার পরামর্শ দিই: সাম্প্রতিক সম্পাদনা ইতিহাস, সংস্করণ খসড়া, একই লেখকের লেখার নমুনা এবং — যেখানে অনুমোদিত — লেখকের সাথে একটি সংক্ষিপ্ত ফলো-আপ কথোপকথন।

আমরা সর্বশেষ জেনারেটর আউটপুটে ক্রমাগত পুনরায় প্রশিক্ষণ দিই, কিন্তু সবসময় একটি পিছিয়ে থাকা থাকে: গত সপ্তাহে প্রকাশিত একটি মডেল ট্রেনিং ডেটায় ভালোভাবে প্রতিনিধিত্ব নাও পেতে পারে। যদি আপনার ওয়ার্কফ্লো সর্বশেষ মডেলগুলো ধরার উপর নির্ভর করে, আপডেট করা সংখ্যার জন্য ত্রৈমাসিকভাবে আমাদের বেঞ্চমার্ক পৃষ্ঠা পুনরায় পরীক্ষা করুন।

সম্পূর্ণ ডেটাসেট ডাউনলোড করুন

আমরা কাঁচা ভ্যালিডেশন ফলাফল প্রকাশ করি যাতে গবেষক, সাংবাদিক এবং শিক্ষাবিদরা স্বাধীনভাবে আমাদের দাবি যাচাই করতে পারেন। CSV-তে রয়েছে: স্যাম্পল আইডি, জেনারেটর পরিচয় (বা 'human'), প্রবন্ধ-ধরনের লেবেল, কাঁচা সম্ভাবনার আউটপুট, ৫০% থ্রেশহোল্ডে বাইনারি রায়, ২৬.৫৬% থ্রেশহোল্ডে বাইনারি রায়।

ডাউনলোড: ai-detector-benchmark-2026-04.csv (ত্রৈমাসিকভাবে আপডেট)। একাডেমিক ব্যবহার অনিয়ন্ত্রিত; বাণিজ্যিক পুনঃপ্রকাশের জন্য অ্যাট্রিবিউশন প্রয়োজন: “চৌর্যবৃত্তি শনাক্তকারী — AI Detection Benchmark 2026-04”।

একই পদ্ধতির একটি ইন্টারেক্টিভ সংস্করণের জন্য আপনার নিজের টেক্সটে, আমাদের AI & Plagiarism Checker টুলটি ব্যবহার করে দেখুন — যেকোনো নথি পেস্ট করুন এবং প্রতি-বাক্য রায়, একই ডিসিশন থ্রেশহোল্ড এবং আমরা এই প্রকাশিত সংখ্যার জন্য যে একই কনফিডেন্স ইন্টারভাল ব্যবহার করি তা দেখুন।

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

এই বেঞ্চমার্ক কত ঘন ঘন আপডেট করা হয়?

প্রতি ত্রৈমাসিকে। যখন একটি প্রধান জেনারেটর (GPT-6, Claude 5, Gemini 3) লঞ্চ হয় আমরা ৪ সপ্তাহের মধ্যে এটি পরীক্ষার কর্পাসে যোগ করি এবং আপডেট করা টেবিল পুনরায় প্রকাশ করি। ঐতিহাসিক সংস্করণগুলো তারিখযুক্ত ফাইলনাম দিয়ে সংরক্ষণাগারভুক্ত করা হয় — 2026-04 সংস্করণটি বর্তমান স্থিতিশীল রিলিজ।

আপনি কেন প্রতি-স্যাম্পল সম্ভাবনার আউটপুট প্রকাশ করেন না?

আমরা করি — ডাউনলোডযোগ্য CSV-তে কাঁচা সম্ভাবনা রয়েছে। আমরা যা প্রকাশ করি না তা হলো মূল প্রবন্ধের টেক্সট, কারণ PAN25 কর্পাস এবং PERSUADE ডেটাসেটে পুনর্বিতরণের বিধিনিষেধ রয়েছে। আপনি যদি টেক্সট চান, সরাসরি তাদের উৎস থেকে সেই ডেটাসেটগুলো টানুন (CSV ডকুমেন্টেশনে লিঙ্ক)।

AUC ১.০-এর নীচে হলে কি আমি একটি ডিটেক্টর বিশ্বাস করতে পারি?

কোনো ডিটেক্টর প্রতিটি জেনারেটরে AUC 1.0 অর্জন করে না, তাই প্রশ্নটি ‘এটি কি নিখুঁত’ নয় বরং ‘এটি কি স্বচ্ছ।’ একটি ডিটেক্টর যা AUC 0.95 প্রকাশ করে এবং আপনাকে বলে কোথায় এটি সংগ্রাম করে তা একটির চেয়ে বেশি বিশ্বাসযোগ্য যা কোনো সংখ্যা ছাড়াই ‘ইন্ডাস্ট্রি-লিডিং নির্ভুলতা’ প্রকাশ করে। আমাদের AUC [AUC: 0.9884] হলো সৎ গড় পারফরম্যান্স; প্রতি-জেনারেটর এবং প্রতি-প্রবন্ধ-ধরনের বিভাজনগুলো হলো যেখানে আপনার ক্রয় সিদ্ধান্ত নেওয়া উচিত।

আপনার AI ডিটেক্টর কি একাডেমিক-প্রকাশনার জন্য প্রস্তুত?

অন্তর্নিহিত পদ্ধতি — Binoculars (ICML 2024) এবং ModernBERT উভয়ই পিয়ার-রিভিউড আর্কিটেকচার। আমাদের নির্দিষ্ট ফাইন-টিউনিং কর্পাস এবং থ্রেশহোল্ডগুলো মালিকানাধীন কিন্তু বেঞ্চমার্ক পদ্ধতিটি সম্পূর্ণভাবে পুনরুৎপাদনযোগ্য।

বিনামূল্যের অনলাইন টুল ডেস্কটপ পণ্যের সাথে কীভাবে তুলনা করে?

একই ইঞ্জিন, একই নির্ভুলতার সংখ্যা, একই প্রতি-বাক্য রায়ের যুক্তি। ডেস্কটপ পণ্য সীমাহীন নথির দৈর্ঘ্য, অফলাইন স্ক্যানিং, ৪ বিলিয়ন ওয়েব পেজের বিপরীতে সমন্বিত প্লেজিয়ারিজম ম্যাচিং এবং পুরো ফোল্ডারের ব্যাচ প্রসেসিং যোগ করে। একক-বার চেকের জন্য অনলাইন টুল যথেষ্ট; দৈনিক ওয়ার্কফ্লোর জন্য ডেস্কটপ সঠিক টুল।

বেঞ্চমার্ক ফলাফল আমাদের অভ্যন্তরীণ ভ্যালিডেশন সেট থেকে প্রাপ্ত এবং আউট-অফ-ডিস্ট্রিবিউশন টেক্সটে সাধারণীকৃত নাও হতে পারে। প্রকাশিত সংখ্যাগুলো ১,০০০ স্যাম্পলে গড় পারফরম্যান্স প্রতিনিধিত্ব করে; আপনার নথি ভিন্নভাবে স্কোর করতে পারে। AI সনাক্তকরণের ফলাফলগুলো লেখকত্বের একমাত্র প্রমাণ হিসেবে নয়, অনেক ইনপুটের মধ্যে একটি ইনপুট হিসেবে ব্যবহার করুন।