எல்லா AI உரையும் சம அளவில் கண்டறியக்கூடியது அல்ல. இங்கே எங்கள் ஒவ்வொரு-உருவாக்கி அளவுகோல் முடிவுகள் உள்ளன — எந்த மாதிரி குடும்பங்களை எங்கள் கண்டறிதல் கருவி கிட்டத்தட்ட சரியான துல்லியத்துடன் கண்டுபிடிக்கிறது, எதில் போராடுகிறது, மற்றும் அது கண்டறிதல் செயல்பாட்டை தேர்வுசெய்வது பற்றி என்ன சொல்கிறது.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
எங்கள் சரிபார்ப்பு தொகுப்பில் கண்டறிய எளிதானது முதல் கடினமானது வரை வரிசைப்படுத்தப்பட்டவை. பரவல் அகலமானது — சில மாதிரி குடும்பங்களில் AUC 0.99 ஐ தாண்டுகிறது, மற்றவை 0.80களில் குறைகின்றன. கண்டறிதல் சிரமம் மாதிரி அளவு, அறிவுறுத்தல்-சரிகட்டல் நுட்பம், மற்றும் வெளியீட்டு மாறுபாடு ஆகியவற்றுடன் தொடர்பு கொள்கிறது.
முழு ஒவ்வொரு-உருவாக்கி முறிவு முறைவியலுக்கு, எங்கள் துல்லிய அளவுகோல் பக்கத்தை பார்க்கவும். இந்த கட்டுரை எந்த கண்டறிதல் கருவியை நம்பவேண்டும் மற்றும் எந்த மாதிரியை பயன்படுத்தவேண்டும் என்று தேர்வுசெய்யும் பயனர்களுக்கு அந்த தரவின் நடைமுறை தாக்கங்களை சுருக்குகிறது.
GPT-3.5 கண்டறிய எளிதான நவீன மாதிரி — எங்கள் தொகுப்பில் AUC [AUC: ?]. மரபு உருவாக்க நிலைகள் (மீண்டும் செய்தல், தயக்கம், வெற்று பதிவேடு) இன்னும் தெளிவாக உள்ளன. GPT-4 AUC [AUC: ?] க்கு இறங்குகிறது, GPT-4o [AUC: ?] க்கு, படிப்படியாக சிறந்த அளவீட்டை பிரதிபலிக்கிறது. GPT-5.x குடும்பத்தில் கண்டறிய கடினமானது — AUC [AUC: ?] — ஏனெனில் அறிவுறுத்தல்-சரிகட்டல் குழு கண்டறிதல்-நிலை அகற்றலை வெளிப்படையாக இலக்காக கொண்டது.
நடைமுறை தாக்கம்: GPT-3.5-யுக மோசடி பற்றி கவலைப்படும் கல்வி செயல்பாடுகள் கண்டறிதலை மட்டுமே அதிகமாக நம்பலாம். GPT-5 பற்றி கவலைப்படும் செயல்பாடுகள் எங்கள் ஆசிரிய செயல்பாடு வழிகாட்டியில் விவரிக்கப்பட்டுள்ளபடி சூழல் சான்றுகளுடன் கண்டறிதலை இணைக்க வேண்டும்.
வெப்பநிலை அமைப்புகள் முக்கியம். குறைந்த-வெப்பநிலை வெளியீடுகள் (t≤0.5) கண்டறிய எளிதானவை ஏனெனில் அவை குறுகிய சொல்லகராதியில் நிகழ்தகவு நிறையை குவிக்கின்றன. பெரும்பாலான அரட்டை இடைமுகங்கள் t≈0.7 இயல்புநிலையில் இயங்குகின்றன, உரையை மிதமான கண்டறியக்கூடிய மண்டலத்தில் வைக்கின்றன. எதிரி பயனர்கள் வெளிப்படையாக வெப்பநிலையை அதிகரிக்கிறார்கள் அல்லது கண்டறிதலை தவிர்க்க பலவிதமான மறையாக்கத்தை பயன்படுத்துகிறார்கள் — எங்கள் தொகுப்பு இதை ஓரளவு சரிசெய்கிறது ஆனால் முழுமையாக அல்ல.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude குடும்பம் தொடர்ந்து ஒரே தலைமுறை GPT மாதிரிகளை விட குறைந்த மீண்டும் செய்யும், அதிக பாணி மாறுபாடான உரையை உருவாக்குகிறது, இது புள்ளியியல் முறைகள் மூலம் கண்டறிய கடினமாக்குகிறது.
Claude இன் அரசியலமைப்பு-AI பயிற்சி குறிப்பாக எங்கள் மேற்பார்வை வகைப்படுத்தி கற்றுக்கொள்ளும் “இயந்திர அறிகுறிகளை” இலக்காக கொள்கிறது — தயக்க வடிவங்கள், குறிப்பிட்ட இணைப்பு சொற்களின் அதிக பயன்பாடு, கணிக்கக்கூடிய பத்தி அமைப்பு. இது ஒரு நேரடி எதிரி உறவு: உருவாக்கி கண்டறிதல் நம்பும் அம்சங்களுக்கு எதிராக பயிற்சி பெற்றுள்ளது.
Claude 4.5 Sonnet மற்றும் GPT-5.x சிரமத்தில் நெருக்கமாக உள்ளன. அவற்றின் மதிப்பெண் விநியோகங்கள் எங்கள் சரிபார்ப்பு தரவில் மனித அடிப்படையை அதிகமாக ஒட்டுகின்றன. உங்கள் செயல்பாடு இந்த மாதிரிகளில் ஏதேனும் ஒன்றை இலக்காக கொண்டால், இயல்புநிலை வரம்பில் குறைந்த நினைவுக்கூர்வை எதிர்பாருங்கள் மற்றும் உயர்-உணர்திறன் தேர்வுக்கு F1-உகந்ததாக குறைக்க பரிசீலிக்கவும்.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini பதிப்புகள் முழுவதும் மிகவும் மாறுபட்ட கண்டறிதல் செயல்திறனை காட்டியுள்ளது — சில இடைநிலை வெளியீடுகள் மேம்பாடுகள் வந்து சேர்வதற்கு முன்பு தற்காலிகமாக பின்னடைந்தன.
Gemini இன் பல-மாதிரி பயிற்சி என்பது உரை-மட்டும் வெளியீடுகள் சில நேரங்களில் படம்-தலைப்பு அல்லது குறியீடு-விளக்க தளங்களிலிருந்து எஞ்சிய வடிவங்களை கொண்டிருக்கலாம். எங்கள் கண்டறிதல் கருவி இவற்றை கண்டுபிடிக்கிறது, இது தூய உரையை விட கலப்பு-தளம் உந்துதல்களில் Gemini இன் சற்று அதிக கண்டறியக்கூடிய தன்மையை விளக்குகிறது.
Docs வழியாக Gemini பயன்படுத்தும் மாணவர்கள் அல்லது ஊழியர்கள் உள்ள Google Workspace பயனர்களுக்கு, கண்டறிதல் சமிக்ஞை மூல API வெளியீட்டைப் போன்றதாக உள்ளது. நேரடி Gemini API பயன்பாட்டிலிருந்து வேறுபட்ட பணியிடம்-ஒருங்கிணைப்பு-குறிப்பிட்ட தவிர்ப்பு வடிவங்களை நாங்கள் கவனிக்கவில்லை.
எந்த LLM இலிருந்தும் வெளியீட்டை ஒட்டி, வரி-வரி தீர்ப்பை பார்க்கவும். எங்கள் கண்டறிதல் கருவி அனைத்து 22 மாதிரி குடும்பங்களையும் ஒரு தொகுப்பு சோதிப்பாக கருதுகிறது.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. திறந்த-எடை மாதிரிகள் மூடிய மாதிரிகளை விட அகலமான வரம்பை உள்ளடக்குகின்றன — நுண்-சரிகட்டல் வகைகள், அளவிடப்பட்ட நிலைமைகள், மற்றும் சமுதாய-மாற்றியமைக்கப்பட்ட சோதனை புள்ளிகள் அனைத்தும் நுட்பமாக வேறுபட்ட வெளியீடுகளை உருவாக்குகின்றன.
திறந்த-எடையில் கண்டறிதல் உத்திரீதியாக முக்கியமானது ஏனெனில் மனிதமயமாக்கல் கருவிகள் பொதுவாக திறந்த-எடை மாதிரிகளில் கட்டமைக்கப்பட்டுள்ளன — Llama மற்றும் Mistral வழித்தோன்றல்கள் குறைந்த செலவில் உள்நாட்டில் இயங்குகின்றன, இதனால் மறுவார்த்தையாக்கம் மற்றும் பாணி-மாற்றல் சேவைகள் அவற்றை விலையில் வெளியே தள்ளுகின்றன. உங்கள் கவலை மனிதமயமாக்கப்பட்ட AI என்றால், நீங்கள் இறுதியில் Llama-குடும்ப உருவாக்கத்திற்கு எதிராக பாதுகாக்கிறீர்கள்.
DeepSeek R1 மற்றும் o3-mini (OpenAI நியாயச்சிந்தனை மாதிரி) தனி குறிப்பு தகுதியானவை. இரண்டும் நியாயச்சிந்தனை-சங்கிலி நிலைகளுடன் உரையை உருவாக்குகின்றன — வெளியீட்டில் தெளிவான படிப்படியான தர்க்கம் தெரியும் — எங்கள் கண்டறிதல் கருவி இதை அடையாளம் காண கற்றுக்கொண்டுள்ளது. நியாயச்சிந்தனை மாதிரிகள் தற்போது அவற்றின் அடிப்படை-அரட்டை சகாக்களை விட கண்டறிய எளிதானவை.
கண்டறிதல் உங்கள் கவலை இல்லாமல் எழுதுவதற்கு ஒரு மாதிரியை தேர்வு செய்கிறீர்கள் என்றால், Claude 4.5 Sonnet மற்றும் GPT-5 கண்டறிய கடினமானவை. கண்டறிதல் செயல்பாட்டை கட்டமைக்கிறீர்கள் என்றால், நீங்கள் உண்மையில் பார்க்கும் மாதிரிகளுக்கு முன்னுரிமை கொடுங்கள்: பெரும்பாலான கல்வி தவறான பயன்பாடு இன்னும் இலவச இடைமுகங்கள் மூலம் GPT-4/5 இல் இயங்குகிறது; பெரும்பாலான உள்ளடக்க-பண்ணைகள் Llama-வழித்தோன்றல் மனிதமயமாக்கல் கருவிகளில் இயங்குகின்றன.
ஒரு மாதிரி குடும்பத்தில் பயிற்சி பெற்ற ஒற்றை கண்டறிதல் கருவி மற்றவற்றில் மோசமாக செயல்படும். எங்கள் தொகுப்பு அணுகுமுறை அனைத்து 22 உருவாக்கிகளிலிருந்து மாதிரிகளில் பயிற்சி பெறுகிறது, இதனால் கடினமான வழக்குகளில் (Claude 4.5, GPT-5) ஒவ்வொரு-மாதிரி AUC இன்னும் 0.90 மேல் உள்ளது, எந்த ஒற்றை-மாதிரி-பயிற்சி பெற்ற கண்டறிதல் கருவியும் 0.80 க்கு கீழ் இறங்கும்போது.
அடிப்படை போக்கு: கண்டறிதல் சிரமம் உருவாக்கி வெளியீடு வேகத்தை விட வேகமாக அதிகரிக்கிறது. ஒவ்வொரு புதிய முன்னணி கண்டறிய முந்தையதை விட கடினமானது, மறுபயிற்சி இடைவெளியை மூடுகிறது ஆனால் முழுமையாக அல்ல. 2026–2027 அடிப்படை முன்னணி மாதிரிகளில் குறைந்த AUC மற்றும் மரபு மாதிரிகளில் தோராயமாக நிலையானதாக இருக்கும் என்று எதிர்பாருங்கள்.
ஒவ்வொரு-மாதிரி AUC எண்கள் எங்கள் உள் சரிபார்ப்பிலிருந்து பெறப்பட்டவை மற்றும் பொதுப்படுத்தாமல் இருக்கலாம். ஒவ்வொரு மாதிரியின் சிரமம் உருவாக்கி மற்றும் எங்கள் பயிற்சி மூலக்கூறு இரண்டும் உருவாகும்போது காலப்போக்கில் மாறுகிறது. தற்போதைய தரவு 2026-04 அளவுகோல் இயக்கத்தை பிரதிபலிக்கிறது.