GPT-5, Claude 4, Gemini 2, மற்றும் Llama 3 உட்பட 22 உருவாக்க மாதிரிகளுக்கு எதிராக எங்கள் AI கண்டறிதல் கருவியின் உண்மையான துல்லியத்தை நாங்கள் வெளியிடுகிறோம். மாதிரி-வாரியான அட்டவணைகள், நேர்மையான வரம்புகள், மற்றும் ஆராய்ச்சியாளர்களுக்கான பதிவிறக்கக்கூடிய தரவுத்தொகுப்பு.
பெரும்பாலான AI கண்டறிதல் கருவிகள் ஒரு மறைமுகமான மதிப்பெண்ணை நம்பச் சொல்கின்றன. நீங்கள் சான்றுகளுக்கு தகுதியானவர்கள் என்று நாங்கள் நம்புகிறோம். இந்தப் பக்கத்தில் நாங்கள் எங்கள் உள்ளக சரிபார்ப்பு இயக்கத்தின் முழு முடிவுகளையும் பகிர்கிறோம் — நாங்கள் சோதித்த ஒவ்வொரு மாதிரியும், அதன் AUC-ROC மதிப்பெண்ணும், எங்களுக்கு அதிக சிரமம் தந்த கட்டுரை வகைகளும், மற்றும் உற்பத்தியில் நாங்கள் பயன்படுத்தும் முடிவு வரம்புகளும்.
இந்த அளவிலான வெளிப்படைத்தன்மை AI கண்டறிதல் துறையில் அசாதாரணமானது. பெரும்பாலான போட்டியாளர்கள் — கருத்துத் திருட்டு சரிபார்ப்பு விற்பனையாளர்கள், நிபுணத்துவ AI கண்டறிதல் சேவைகள், பொதுவான SaaS கருவிகள் — துல்லியத் தரவை வெளியிடவே மாட்டார்கள் அல்லது ஒரு தேர்ந்தெடுக்கப்பட்ட எண்ணை மட்டும் வெளியிடுவார்கள். இந்த முறை நிலைத்திருக்காது: கல்வியாளர்கள், வெளியீட்டாளர்கள், மற்றும் ஆராய்ச்சியாளர்கள் எந்த கருவியையும் நம்பப் பயன்படுத்துவதற்கு முன் மீண்டும் உருவாக்கக்கூடிய அளவீடுகள் தேவை.
எங்கள் எண்கள் எங்கள் ModernBERT கண்டறிதல் கருவியை பயிற்றுவிக்கப் பயன்படுத்திய அளவுத்திருத்தல் கார்பஸின் 1,000 மாதிரி சரிபார்ப்பு பிரிவிலிருந்து வருகின்றன. இந்த அளவீட்டை இயக்கும் அதே முறையியல் நீங்கள் எங்கள் கருவி மூலம் சமர்ப்பிக்கும் ஒவ்வொரு ஆவணத்திலும் இயங்குகிறது. எதுவும் விளக்கக்காட்சிகளுக்காக மறைக்கப்படவில்லை.
சரிபார்ப்பு தொகுப்பில் 1,200 மாதிரி அளவுத்திருத்தல் கார்பஸிலிருந்து எடுக்கப்பட்ட 1,000 கட்டுரைகள் உள்ளன: 600 மனித-எழுதப்பட்ட கட்டுரைகள் (PAN25 பகிர்ந்த-பணி தரவு மற்றும் PERSUADE வாதகட்டுரை தரவுத்தொகுப்பிலிருந்து) மற்றும் 600 AI-உருவாக்கிய கட்டுரைகள் (கட்டுப்படுத்தப்பட்ட தூண்டுதலின் கீழ் 22 தனித்துவமான பெரிய மொழி மாதிரிகளால் உருவாக்கப்பட்டவை). 80/20 பயிற்சி-சரிபார்ப்பு பிரிவு நிரந்தரமானது மற்றும் மீண்டும் உருவாக்கக்கூடியது.
ஒவ்வொரு மாதிரியும் தனிமையில் மதிப்பிடப்படுகிறது, உண்மையை வெளியிடக்கூடிய எந்த மேட்டாடேட்டாவையும் அணுகாமல். கண்டறிதல் கருவி [0, 100] இல் ஒரு நிகழ்தகவை திருப்பி அளிக்கிறது, இது மாதிரி AI-உருவாக்கப்பட்டதாக இருக்கும் சாத்தியத்தை குறிக்கிறது. பின்னர் நாங்கள் மாதிரி-வாரியாக மற்றும் கட்டுரை-வகை அளவில் பெறுநர்-செயல்பாட்டு-பண்புவிளக்கக்கோடு (AUC-ROC) கீழ் பரப்பளவை கணக்கிடுகிறோம்.
அனைத்து வரம்புகள், பயிற்சி ஹைப்பர்-பாராமீட்டர்கள், மற்றும் மூல நிகழ்தகவு வெளியீடுகள் பதிவுசெய்யப்படுகின்றன. தரவுத்தொகுப்பே இந்தப் பக்கத்தின் அடிப்பகுதியில் பதிவிறக்கத்திற்கு கிடைக்கிறது — CSV வடிவம், மாதிரிக்கு ஒரு வரிசை, மாதிரி அடையாளம், கட்டுரை-வகை முத்திரை, மூல மதிப்பெண், மற்றும் இறுதி இரும தீர்ப்பு ஆகியவற்றுடன்.
முழு 1,000 மாதிரி தொகுப்பு முழுவதும், எங்கள் ensemble கண்டறிதல் கருவி AUC-ROC [AUC: 0.9884] அடைகிறது. உற்பத்தியில் நாங்கள் பயன்படுத்தும் 50% முடிவு வரம்பில்: சரிபார்ப்பு தொகுப்பில் மனித கட்டுரைகளில் 0 தவறான நேர்மறைகள், மற்றும் AI கட்டுரைகளில் 60% மீட்பு. 26.56% F1-உகந்த வரம்பில், மீட்பு 2% தவறான நேர்மறைகளின் விலையில் 90% ஆக உயர்கிறது — அதிக-உணர்திறன் திரையிடல் பணிப்பாய்வுகளுக்கு மிகவும் பொருத்தமான ஒரு நிலை.
எங்கள் பொது கருவியில் ஆவண-அளவு தீர்ப்பு பழமைவாத 50% வரம்பைப் பயன்படுத்துகிறது, அதிகபட்ச மீட்பை விட பூஜ்ய தவறான நேர்மறைகளுக்கு முன்னுரிமை அளிக்கிறது. ஆசிரியர்கள், வெளியீட்டாளர்கள், மற்றும் ஆராய்ச்சியாளர்கள் அதிக ஆக்கிரமிப்பு கொடியிடல் விரும்பும்போது விட்ஜெட்டிலுள்ள உணர்திறன் ஸ்லைடர் மூலம் இதை மேலெழுதலாம்.
ஒப்பீட்டிற்காக, Binoculars ஜீரோ-ஷாட் கூறு மட்டும் (2× Llama-3.1-8B அமைப்பு) தனியாக AUC [AUC: 0.8509] மதிப்பெண் பெறுகிறது. நுண்ணாய்வு-செய்யப்பட்ட ModernBERT கூறு மட்டும் விநியோக-உள்ளே கட்டுரைகளில் [AUC: 1.0000] மற்றும் விநியோக-வெளியே உரையில் [AUC: 0.9069] மதிப்பெண் பெறுகிறது. ensemble எந்த ஒரு அச்சிலும் இரண்டுக்கும் இடையே அமர்ந்திருக்கிறது, ஆனால் சராசரியில் இரண்டையும் விட சிறப்பாக செயல்படுகிறது, ஏனெனில் அது அவற்றின் பூரக பலவீனங்களை சரிசெய்கிறது.
இங்கே மாதிரி-வாரியான AUC-ROC அட்டவணை உள்ளது. மாதிரிகள் எங்கள் சரிபார்ப்பு தொகுப்பில் கண்டறிவதற்கு எளிதானது முதல் கடினமானது வரை வரிசையிடப்பட்டுள்ளன. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI மாதிரிகள்: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Others: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
தலைப்பு முறை: புதிய, பெரிய, அறிவுறுத்தல்-சரிசெய்யப்பட்ட மாதிரிகள் எந்த புள்ளியியல் கண்டறிதல் கருவிக்கும், நம்முடையதை உட்பட, மனித அடிப்படை அளவோடு அதிகமாக ஒத்துப்போகும் உரையை உருவாக்கும் போக்கு உள்ளது. Claude 4.5 Sonnet மற்றும் GPT-5.x என்பது நமது மதிப்பெண் விநியோகங்கள் மனித அடிப்படையோடு மிகவும் ஒத்துப்போகும் இரண்டு குடும்பங்கள். இது 2025 இல் வெளியிடப்பட்ட ஒவ்வொரு சுயாதீன ஆய்வோடும் பொருந்துகிறது — ஆயுத பந்தயம் உண்மையானது மற்றும் மாதிரி அளவு கண்டறிதலுக்கு நேரடி எதிர்காற்றாகும்.
அனைத்து உரையும் சமமாக கண்டறியக்கூடியவை அல்ல. கட்டுரை வகை வாரியாக — ஒவ்வொரு PERSUADE தூண்டுதல் வகையும் — முடிவுகளை பிரிக்கிறோம், மேலும் சிறந்தது மற்றும் மோசமானது இடையே உள்ள இடைவெளி பரந்தது. [PER-TYPE TABLE]
வாதகட்டுரை, வற்புறுத்துகிற, மற்றும் விளக்கக் கட்டுரைகள்: கண்டறிதல் கருவியின் வலுவான துறை. AUC பொதுவாக 0.97–1.00 ஆகும், ஏனெனில் பயிற்சி கார்பஸ்கள் இந்த பாணிகளை அதிகமாக எடைபோடுகின்றன. இது பெரும்பாலான கல்வி-ஒருமைப்பாடு பயன்பாட்டு வழக்குகள் விழும் இடம்.
படைப்பு எழுத்து மற்றும் இலக்கிய பகுப்பாய்வு: எங்கள் பலவீனமான துறை. literary_analysis க்கு AUC 0.69 ஆக குறைகிறது — புனைவில் மனித பாணி LLM வெளியீடுகளோடு ஒருங்கிணைகிறது மற்றும் எங்கள் மேற்பார்வை அல்லது ஜீரோ-ஷாட் கூறு இரண்டும் அவற்றை நம்பகமாக வேறுபடுத்த முடியாது. புனைவில் உயர் AI மதிப்பெண்ணை சந்தேகத்துடன் நடத்துங்கள்.
எந்த ஆவணத்தையும் ஒட்டி, இந்த அளவீடு எண்களுக்கு நாங்கள் பயன்படுத்தும் அதே வாக்கியம்-வாரியான தீர்ப்பு மற்றும் முடிவு வரம்புகளை பாருங்கள். இலவசம், பதிவு தேவையில்லை.
மூன்று வகையான உரை எங்கள் சரிபார்ப்பு தொகுப்பு அறிவுறுத்துவதை விட அடிக்கடி எங்கள் கண்டறிதல் கருவியிலிருந்து தப்பிக்கின்றன. மனிதமயமாக்கப்பட்ட AI உரை — எதிரிடையான paraphrasing அல்லது பாணி-மாற்றல் கருவி மூலம் அனுப்பப்பட்ட வெளியீடு — அடிப்படை உரை முழுவதும் உருவாக்கப்பட்டதாக இருந்தாலும் பெரும்பாலும் மனிதனாக மதிப்பிடப்படுகிறது. குறுகிய உரை (100 வார்த்தைகளுக்கு குறைவாக) போதுமான புள்ளியியல் சமிக்ஞை இல்லாததால் வகைப்படுத்துவது கடினம். தாய்மொழி அல்லாத ஆங்கில எழுத்து AI-உருவாக்கப்பட்டதாக மதிப்பிடப்படலாம், ஏனெனில் LLM கள் மற்றும் ESL எழுத்தாளர்கள் சில லெக்சிக்கல் மற்றும் தொடரியல் விருப்பங்களை பகிர்கிறார்கள்.
எங்கள் கண்டறிதல் கருவி நிகழ்தகவு-சார்ந்தது, சான்றுப்பூர்வமானது அல்ல. உயர் AI மதிப்பெண் மேலும் விசாரிக்க ஒரு சமிக்ஞை, துர்நடவடிக்கைக்கான ஆதாரம் அல்ல. மதிப்பெண்ணை சூழலுடன் இணைக்க நாங்கள் கடுமையாக பரிந்துரைக்கிறோம்: சமீபத்திய திருத்த வரலாறு, பதிப்பு வரைவுகள், அதே ஆசிரியரிடமிருந்து எழுதுதல் மாதிரிகள், மற்றும் — அனுமதிக்கப்பட்ட இடங்களில் — ஆசிரியருடன் ஒரு சுருக்கமான தொடர் உரையாடல்.
சமீபத்திய மாதிரி வெளியீடுகளில் நாங்கள் தொடர்ந்து மீண்டும் பயிற்றுவிக்கிறோம், ஆனால் எப்போதும் ஒரு தாமதம் உள்ளது: கடந்த வாரம் வெளியிடப்பட்ட ஒரு மாதிரி பயிற்சி தரவில் நன்கு பிரதிநிதித்துவப்படாமல் இருக்கலாம். உங்கள் பணிப்பாய்வு சமீபத்திய மாதிரிகளை கண்டுபிடிப்பதை சார்ந்திருந்தால், புதுப்பிக்கப்பட்ட எண்களுக்கு காலாண்டுக்கு ஒருமுறை எங்கள் அளவீடு பக்கத்தை மீண்டும் சரிபார்க்கவும்.
ஆராய்ச்சியாளர்கள், பத்திரிகையாளர்கள், மற்றும் கல்வியாளர்கள் எங்கள் கோரிக்கைகளை சுயாதீனமாக சரிபார்க்க நாங்கள் மூல சரிபார்ப்பு முடிவுகளை வெளியிடுகிறோம். CSV இல் உள்ளது: மாதிரி ID, மாதிரி அடையாளம் (அல்லது 'மனித'), கட்டுரை-வகை முத்திரை, மூல நிகழ்தகவு வெளியீடு, 50% வரம்பில் இரும தீர்ப்பு, 26.56% வரம்பில் இரும தீர்ப்பு.
பதிவிறக்கவும்: ai-detector-benchmark-2026-04.csv (காலாண்டுக்கு ஒருமுறை புதுப்பிக்கப்படுகிறது). கல்வி பயன்பாடு கட்டுப்பாடற்றது; வணிக மறு-வெளியீட்டிற்கு காரணகர்த்தா தேவை: “கருத்துத் திருட்டு கண்டறிதல் கருவி — AI கண்டறிதல் அளவீடு 2026-04”.
அதே முறையியலின் ஊடாடும் பதிப்பிற்கு உங்கள் சொந்த உரையில், எங்கள் AI & கருத்துத் திருட்டு சரிபார்ப்பு கருவியை முயற்சிக்கவும் — எந்த ஆவணத்தையும் ஒட்டி, வாக்கியம்-வாரியான தீர்ப்பை, அதே முடிவு வரம்புகளை, மற்றும் இந்த வெளியிடப்பட்ட எண்களுக்கு நாங்கள் பயன்படுத்தும் அதே நம்பிக்கை இடைவெளியை பாருங்கள்.
அளவீடு முடிவுகள் எங்கள் உள்ளக சரிபார்ப்பு தொகுப்பிலிருந்து பெறப்படுகின்றன மற்றும் விநியோக-வெளியே உரைக்கு பொதுமைப்படுத்தாமல் இருக்கலாம். வெளியிடப்பட்ட எண்கள் 1,000 மாதிரிகள் முழுவதும் சராசரி செயல்திறனை குறிக்கின்றன; உங்கள் ஆவணம் வேறுபட்டு மதிப்பிடப்படலாம். AI கண்டறிதல் முடிவுகளை ஆசிரிப்பின் ஒரே சான்றாக அல்ல, பல உள்ளீடுகளில் ஒன்றாக பயன்படுத்துங்கள்.