மேலே செல்லவும்
வீடு AI உரை கண்டறிதல் ஏன் கடினம்: தாக்குதல்-பாதுகாப்பு ஆயுத பந்தயம் | கருத்துத் திருட்டு கண்டறிதல் கருவி

AI உரை கண்டறிதல் ஏன் கடினம்: ஆயுத பந்தயத்தின் உள்ளே

கண்டறிதல் மற்றும் உருவாக்கம் பூனை-எலி பந்தயத்தில் பூட்டப்பட்டுள்ளன. ஒவ்வொரு புதிய மாதிரி வெளியீடும் கண்டறிதல் கருவிகள் நம்பும் புள்ளியியல் இடைவெளியை மூடுகிறது — மற்றும் ஒவ்வொரு கண்டறிதல் மேம்பாடும் ஒரு புதிய மனிதமயமாக்கி கருவியால் பதிலளிக்கப்படுகிறது. இங்கே என்ன நடக்கிறது என்பதை உண்மையில் பார்க்கலாம்.

2026-04-17 · Plagiarism Detector Team

கண்டறிதலின் புள்ளியியல் அடிப்படை

ஒவ்வொரு AI உரை கண்டறிதல் கருவியும் இறுதியில் ஒரு புள்ளியியல் பாகுபாட்டாளர் — இது உரையின் அம்சங்களை (டோக்கன் நிகழ்தகவுகள், perplexity, burstiness, தொடரியல் ஒழுங்குமுறை) பார்க்கிறது மற்றும் இயந்திர-உருவாக்கப்பட்ட உரையை மனித-எழுதப்பட்ட உள்ளடக்கத்திலிருந்து வேறுபடுத்தும் சமிக்ஞைகளை கண்டுபிடிக்க முயற்சிக்கிறது. Binoculars முறை (ICML 2024) அதன் சமிக்ஞையாக இரண்டு மொழி மாதிரிகளுக்கிடையே cross-perplexity விகிதத்தை பயன்படுத்துகிறது. ModernBERT மேற்பார்வை அணுகுமுறை முத்திரையிடப்பட்ட எடுத்துக்காட்டுகளிலிருந்து நேரடியாக சமிக்ஞையை கற்றுக்கொள்கிறது.

இரண்டு அணுகுமுறைகளும் ஒரு அடிப்படை பாதிப்பை பகிர்கின்றன: அவை நம்பும் சமிக்ஞைகள் மாதிரிகள் உரையை எவ்வாறு உருவாக்குகின்றன என்பதன் பக்க-விளைவுகள், இயந்திர-எழுதப்பட்ட-தன்மையின் அடிப்படை அம்சங்கள் அல்ல. மாதிரிகள் மேம்படும்போது, அந்த பக்க-விளைவுகள் சுருங்குகின்றன. மனிதனைப் போல் எழுதுவதற்கு பயிற்றுவிக்கப்பட்ட ஒரு மாதிரி — இயல்பாகவே — கண்டறிவதற்கு கடினமாக இருக்கும்.

இது ஒரு ஆராய்ச்சி தோல்வி அல்ல. இது பிரச்சினை பற்றிய ஒரு கட்டமைப்பு உண்மை. கண்டறிதல் ஒரு நகரும் இலக்கில் செயல்படுகிறது: ஒவ்வொரு முக்கிய LLM வெளியீடும் இடைவெளியை குறைக்கிறது, ஒவ்வொரு மனிதமயமாக்கி கருவியும் வெளிப்படையாக கண்டறிதல் வெளியீடுகளுக்கு எதிராக பயிற்றுவிக்கிறது. கேள்வி ‘100% கண்டறிதலை எப்போதும் அடைய முடியுமா’ என்பது அல்ல — அது முடியாது — ஆனால் ‘நடைமுறையில் பயனுள்ளதாக இருக்க போதுமான காலம் தற்போதைய தலைமுறைக்கு முன்னால் இருக்க முடியுமா.’

வாள் என்ன செய்கிறது — உருவாக்கம் மேம்படுகிறது

கண்டறிதலை கடினமாக்கும் மூன்று உருவாக்க போக்குகள். அளவு: பெரிய மாதிரிகள் புள்ளியியல் ரீதியாக அதிக வேறுபட்ட உரையை உருவாக்குகின்றன, ஏனெனில் அவை பணக்கார உள்ளக விநியோகங்களை கொண்டுள்ளன. 70-பில்லியன்-அளவு மாதிரி 7-பில்லியன்-அளவு மாதிரியை விட மனித-போன்ற வெளியீட்டின் பரந்த வீச்சை கொண்டுள்ளது. அறிவுறுத்தல்-சரிசெய்தல்: RLHF மற்றும் அரசியலமைப்பு முறைகள் GPT-3 ஐ கண்டறிவதற்கு எளிதாக்கிய திரும்பும், தடுக்கும், சலிக்கடிக்கும் முறைகளை தவிர்க்க மாதிரிகளுக்கு கற்பிக்கின்றன. வெப்பநிலை மற்றும் மாதிரியெடுத்தல்: அரட்டை இடைமுகங்கள் nucleus sampling மற்றும் சீர்தகவின்மை நோக்கி மாறியுள்ளன, இது சாஸ்திரீய கண்டறிதல் கருவிகள் நங்கூரங்களாக பயன்படுத்திய குறைந்த-பரவல் முறைகளை உடைக்கிறது.

GPT-5, Claude 4.5, மற்றும் Gemini 2.5 அனைத்தும் அவற்றின் முன்னோடிகளை விட கண்டறிவதற்கு கவனிக்கத்தக்க வகையில் கடினமானவை. எங்கள் உள்ளக சரிபார்ப்பு இதை உறுதிப்படுத்துகிறது: ஒவ்வொரு மாதிரி தலைமுறையும் முந்தைய தலைமுறையுடன் ஒப்பிடுகையில் அந்த குடும்பத்தில் எங்கள் AUC ஐ 5–10 சதவீத புள்ளிகளால் குறைக்கிறது. மாதிரி-வாரியான எண்களுக்கு எங்கள் துல்லிய அளவீட்டை பாருங்கள்.

மனிதமயமாக்கி கருவிகள் — Undetectable AI, StealthWriter, Humanbeing, மற்றும் வளர்ந்து வரும் பட்டியல் — வெளிப்படையான எதிரிகள். அவை AI வெளியீட்டை எடுத்து கண்டறிதல் கருவிகளை தோற்கடிக்க குறிப்பாக paraphrase, மீண்டும் எழுது, அல்லது பாணி-மாற்றம் செய்கின்றன. அவை பொது கண்டறிதல் கருவிகளுக்கு எதிராக (நம்முடையதை உட்பட, நாங்கள் மாதிரி எடைகளை ஒருபோதும் பகிர்வதில்லை) பயிற்றுவிக்கப்படுகின்றன மற்றும் ஒவ்வொரு புதுப்பிப்புடனும் அளவிடத்தக்க வகையில் சிறப்பாகின்றன.

கேடயம் என்ன செய்கிறது — கண்டறிதல் பதிலளிக்கிறது

உருவாக்க ஆயுத பந்தயத்திற்கு கண்டறிதல் கருவிகளுக்கு மூன்று பதில்கள் உள்ளன. Ensembling: எந்த ஒற்றை ஏய்ப்பு தந்திரமும் போதாதவாறு பல கண்டறிதல் சமிக்ஞைகளை இணைத்தல். மேற்பார்வை ModernBERT உடன் எங்கள் ஜீரோ-ஷாட் Binoculars ensemble இதை சுரண்டுகிறது: ஒரு கூறை தோற்கடிக்கும் மனிதமயமாக்கி பெரும்பாலும் மற்றதற்கு எதிராக தோல்வியடைகிறது, மற்றும் ensemble மதிப்பெண் இரண்டையும் கைப்பற்றுகிறது.

தொடர்ந்த மீண்டும் பயிற்றுவித்தல்: வெளியீட்டின் 4 வாரங்களுக்குள் ஒவ்வொரு முக்கிய புதிய மாதிரி வெளியீட்டிலிருந்தும் மாதிரிகளை சேர்க்கிறோம். GPT-6 நாளை வெளியிடப்பட்டால், எங்கள் பயிற்சி கார்பஸ் அடுத்த மாதத்தின் நடுப்பகுதியில் அதை உள்ளடக்கும். இது செலவுமிக்கது — கணினிசார், குறிப்பிடல், மீண்டும்-சரிபார்த்தல் — ஆனால் கண்டறிதலை தற்போதையதாக வைத்திருக்க இதுவே ஒரே வழி. ஆண்டுதோறும் அல்லது குறைவான அடிப்படையில் மீண்டும் பயிற்றுவிக்கும் கண்டறிதல் கருவிகள் ஒரு வருடத்திற்குள் திருப்தியற்ற அருங்காட்சியக வஸ்துக்களாகின்றன.

எதிரிடையான பயிற்சி: மனிதமயமாக்கப்பட்ட AI மாதிரிகள் மற்றும் paraphrase செய்யப்பட்ட வெளியீடுகளில் வேண்டுமென்றே பயிற்றுவிக்கிறோம், மேற்பரப்பு-அளவிலான பாணி மாற்றத்தைத் தாண்டி பார்க்க மாதிரியை கற்பிக்கிறோம். இது ஒரு மனிதமயமாக்கி நம்மை ஏய்க்க செய்ய வேண்டியவற்றின் தளத்தை உயர்த்துகிறது, இது ஆயுத பந்தயத்தை மெதுவாக்குகிறது.

ஏய்ப்பு நிலப்பரப்பின் உள்ளே

மனிதமயமாக்கி கருவிகள் உண்மையில் எவ்வாறு செயல்படுகின்றன? மூன்று பரந்த வகைகள். Paraphrasing: ஒரு இரண்டாம் நிலை LLM ஐ பயன்படுத்தி உரையை வார்த்தை-வார்த்தையாக அல்லது வாக்கியம்-வாக்கியமாக மீண்டும் எழுதுதல். சரியான டோக்கன் வரிசைகளை சார்ந்திருக்கும் அப்பாவி கண்டறிதல் கருவிகளுக்கு எதிராக பயனுள்ளது; புள்ளியியல் முறைகளுக்கு எதிராக மிதமான பயன். பாணி மாற்றல்: ஒரு குறிப்பிட்ட ஆசிரியர் அல்லது பதிவை பின்பற்ற உரையை மாற்றுதல். மிகவும் பயனுள்ளது — பாணி-மாற்றப்பட்ட AI உரையில் எங்கள் கண்டறிதல் கருவியின் AUC ~8 புள்ளிகளால் குறைகிறது.

மனித-AI கலப்பு திருத்தல்: ஆசிரியர் ஒரு வரைவை எழுதி, பட்டையேற்றுவதற்கு ஒரு LLM மூலம் இயக்கி, பின்னர் பட்டையேற்றப்பட்ட பதிப்பை கைமுறையாக திருத்துகிறார். இது மிகவும் கடினமான வழக்கு — வாக்கிய அளவில் மனித மற்றும் இயந்திர சமிக்ஞைகளை கலக்கும் நியாயமான கூட்டு வேலை. எங்களை உட்பட எந்த கண்டறிதல் கருவியும், கண்டறிதல் கருவி பார்க்க முடியாத திருத்த-வரலாறு மேட்டாடேட்டா இல்லாமல் இவற்றை நம்பகமாக தீர்க்க முடியாது.

பயனுள்ள மன மாதிரி: ஒரு மனிதமயமாக்கி கண்டறிதல்-உடைப்பவன் அல்ல, இது ஏய்ப்பவருக்கான ஒரு செலவு பெருக்கி. இது நேரம், சில நேரங்களில் பணம், மற்றும் எப்போதும் பிழைகளை அறிமுகப்படுத்தும் அபாயத்தை சேர்க்கிறது. பெரும்பாலான கல்வி மோசடி முயற்சிகள் மனிதமயமாக்கிகளை பயன்படுத்துவதில்லை, ஏனெனில் உராய்வு நன்மையை மீறுகிறது. மனிதமயமாக்கிகள் மேலாண்மை செய்யும் இடம் தொழில்முறை உள்ளடக்க விவசாயம் மற்றும் AI-உருவாக்கிய SEO spam — பணிப்பாய்வு முக்கியமான மற்றும் தர கட்டுப்பாடு பலவீனமான பயன்பாட்டு வழக்குகள்.

எங்கள் கண்டறிதல் கருவி இப்போது எப்படி மதிப்பிடுகிறது என்று பாருங்கள்

எந்த ஆவணத்தையும் ஒட்டி, 30 விநாடிகளுக்குள் நிகழ்நேரத்தில் வாக்கியம்-வாரியான தீர்ப்பை பாருங்கள். மேலே விவரிக்கப்பட்ட ensemble தர்க்கம் உங்கள் உரையில் இயங்குகிறது.

Ensembling ஏன் எந்த ஒற்றை அளவீட்டை விட முக்கியமானது

ஒற்றை-சமிக்ஞை கண்டறிதல் கருவி ஒரு ஒற்றை தோல்வி முறையை கொண்டுள்ளது. perplexity மட்டும் நம்பினால், மாற்றப்பட்ட டோக்கன் நிகழ்தகவுகளுடன் ஒரு paraphrase செய்யப்பட்ட வெளியீடு உங்களை தோற்கடிக்கிறது. மேற்பார்வை வகைப்படுத்தி மட்டும் நம்பினால், விநியோக-வெளியே உரை (புதிய மாதிரி குடும்பம், புதிய எழுத்து துறை) உங்களை தோற்கடிக்கிறது. ஒரு ensemble பலவீனங்களை சராசரிப்படுத்துகிறது: perplexity ஐ தோற்கடிக்கும் paraphrase இன்னும் மேற்பார்வை தலையில் தடுமாறும், மற்றும் தலைகீழாக.

எங்கள் உற்பத்தி கண்டறிதல் கருவி வெளிப்படையாக ensembled ஆகும்: 35% Binoculars (ஜீரோ-ஷாட், மாதிரி-அஞ்ஞேயவாத, விநியோக-வெளியே க்கு வலுவான) + 65% ModernBERT (மேற்பார்வை, டொமைன்-குறிப்பிட்ட, விநியோக-உள்ளே உரையில் உயர் துல்லியம்). எடைகள் அனுபவப்பூர்வமாக தேர்ந்தெடுக்கப்பட்டன — ModernBERT ஆதிக்கம் செலுத்தும்போது ஆனால் Binoculars விளிம்பு நிலைகளில் வீட்டோ அதிகாரத்தை தக்கவைக்கும்போது ensemble AUC அதிகரிக்கப்பட்டது.

விளைவு: ஒரு மனிதமயமாக்கி கருவி இப்போது எங்கள் தீர்ப்பை ஏய்க்க இரண்டு கணிசமாக வேறுபட்ட கண்டறிதல் கட்டிடமைப்புகளை ஒரே நேரத்தில் தோற்கடிக்க வேண்டும். பொது மனிதமயமாக்கிகள் பொதுவாக ஒரு இலக்கு கண்டறிதல் கருவிக்கு எதிராக பயிற்றுவிக்கப்படுகின்றன, அதாவது அவை பெரும்பாலும் அந்த குறிப்பிட்ட கண்டறிதல் கருவிக்கு எதிராக வெற்றிபெறுகின்றன, ஆனால் ஒரு ensemble க்கு எதிராக தோல்வியடைகின்றன. இது தற்போதைய ஆயுத பந்தயத்தில் கண்டறிதலின் முதன்மையான கட்டமைப்பு நன்மை.

அடுத்த 12 மாதங்களுக்கான யதார்த்தமான எதிர்பார்ப்புகள்

2026–2027 வரை என்ன எதிர்பார்க்கலாம்? GPT-6 மற்றும் Claude 5 ஆண்டின் நடுப்பகுதி வெளியீடுகளாக இருக்கலாம்; இரண்டும் இடைவெளியை மேலும் குறைக்கும். திறந்த-எடைகள் மாதிரிகள் — Llama 4, Qwen 4 — உயர்தர உருவாக்கத்தை பொதுவாக்குவதை தொடர்ந்து பிரதிநிதித்துவமாக்கி மனிதமயமாக்கிகளை அளவில் இயக்க மலிவாக செய்யும். எல்லை மாதிரிகளில் கண்டறிதல் AUC வெளியீட்டிற்கு பிறகு முதல் வருடத்திற்கு 0.80–0.90 வரம்பில் குறையும், மீண்டும் பயிற்றுவித்தல் அதை சரிசெய்வதற்கு முன்.

பாதுகாப்பு பக்கத்தில்: பல-மாதிரி சமிக்ஞைகள் (தட்டச்சு இயக்கவியல், திருத்த வரலாறு, அறியப்பட்ட கார்பஸிற்கு எதிரான ஆசிரிப்பு சரிபார்ப்பு) 24 மாதங்களுக்குள் தூய உரை-அடிப்படை கண்டறிதலை விட அதிகமாக முக்கியமாக இருக்கலாம். எங்கள் உரை-மட்டும் கண்டறிதல் கருவி முதல் வடிகட்டியாக இருக்கும், ஆனால் ஒரு பணக்கார சான்று அடுக்கில் வாக்களிக்கும் உறுப்பினராக பெருகும்.

நேர்மையான கீழ் வரி: தூய உரை-அடிப்படை கண்டறிதல் ஒருபோதும் 100% அடையாது. இது விநியோக-உள்ளே உரையில் 90–95% AUC அளவில் நிலைப்படும் மற்றும் எல்லை மாதிரிகளில் 75–85% அளவில் நிலைப்படும். உங்கள் பணிப்பாய்வுக்கு நிச்சயத்தன்மை தேவையென்றால், மதிப்பெண்ணை தாண்டிய சான்றுகள் தேவை. உங்கள் பணிப்பாய்வுக்கு மனித மதிப்பாய்வுக்கு முன்னுரிமையளிக்க வலிமையான சமிக்ஞை தேவையென்றால், உரை-அடிப்படை கண்டறிதல் பயனுள்ளதாகவும் ஒன்றும் செய்யாமல் இருப்பதை விட அளவிடத்தக்க வகையில் சிறப்பாகவும் இருக்கும்.

அடிக்கடி கேட்கப்படும் கேள்விகள்

AI கண்டறிதல் ஒருபோதும் சரியாகாமல் போனால், அதை பயன்படுத்துவது மதிப்புள்ளதா?
ஆம் — கேள்வி ‘அது சரியானதா’ அல்ல, ஆனால் ‘திரையிடலே இல்லாமல் இருப்பதை விட சிறப்பானதா’ என்பதே. உங்கள் பணிப்பாய்வில் 90% AUC கண்டறிதல் கருவி ஒரு மிகப்பெரிய சமிக்ஞை-இரைச்சல் மேம்பாடு. கண்டறிதல் வரம்புகளைப் பற்றி அதிக குரலில் பேசுபவர்கள் பெரும்பாலும் அவற்றை தோற்கடிக்க முயல்பவர்கள்; அது கருவியை கைவிட வேண்டும் என்பதற்கான வாதம் அல்ல.
நீர்முத்திரையிடல் புள்ளியியல் கண்டறிதலை மாற்ற முடியுமா?
நீர்முத்திரையிடல் உருவாக்கப்பட்ட உரையில் ஒரு மறைந்த புள்ளியியல் கையொப்பத்தை பொதித்துவைக்கிறது, பின்னர் ஒரு கண்டறிதல் கருவி மீட்டெடுக்கலாம். மாதிரிகள் ஒத்துழைக்கும்போது இது வேலை செய்கிறது (OpenAI சோதனை அடிப்படையில் இதை வரிசைப்படுத்தியுள்ளது), ஆனால் நீர்முத்திரைகள் இல்லாமல் உருவாக்கும் திறந்த-எடைகள் மாதிரிகளில் முற்றிலும் தோல்வியடைகிறது. புள்ளியியல் கண்டறிதல் முன்னறிவிக்கக்கூடிய எதிர்காலத்திற்கு அவசியமாக இருக்கும், ஏனெனில் மாதிரி ஒத்துழைக்க மறுக்கும்போதும் இது வேலை செய்கிறது.
இன்று கண்டறிவதற்கு மிகவும் கடினமான ஒற்றை விஷயம் என்ன?
மனித-AI கலப்பு திருத்தல் — வாக்கிய அளவில் AI-வரைவு, மனித-பட்டையேற்றப்பட்ட உரை துண்டு. எந்த தற்போதைய கண்டறிதல் கருவியும் திருத்த-வரலாறு மேட்டாடேட்டாவை அணுகாமல் இவற்றை நம்பகமாக தீர்க்கவில்லை. அது உங்கள் பயன்பாட்டு வழக்கு என்றால், உரை-அடிப்படை கண்டறிதல் தவறான கருவி — பணிப்பாய்வு கருவிமூலம் தேவை.
புதிய மாதிரி உண்மையில் உங்கள் AUC ஐ எவ்வளவு அடிக்கடி குறைக்கிறது?
ஒவ்வொரு முக்கிய வெளியீடும், தோராயமாக ஒவ்வொரு 3–6 மாதங்களும், நாங்கள் மீண்டும் பயிற்றுவிக்கும் வரை அந்த குடும்பத்தில் AUC ஐ 5–10 சதவீத புள்ளிகளால் குறைக்கிறது. மீண்டும் பயிற்றுவித்தல் போதுமான மாதிரிகளைப் பெற்ற பிறகு சுமார் 4 வாரங்கள் ஆகும். நடைமுறை முடிவு: ஒரு புதிய வெளியீட்டிற்கு பிறகு எப்போதும் 2–8 வாரங்கள் இடைவெளி இருக்கும், அந்த குடும்பத்தில் எங்கள் AUC சராசரியை விட குறைவாக இருக்கும். இந்த இடைவெளிகளை அளவீடு பக்கத்தில் வெளிப்படுத்துகிறோம்.
மனிதமயமாக்கிகளுக்கு எதிராக ensembling உதவுகிறதா?
கணிசமாக — இது நாங்கள் கொண்டிருக்கும் முதன்மையான கட்டமைப்பு பாதுகாப்பு. மனிதமயமாக்கிகள் ஒரு இலக்கு கண்டறிதல் கருவிக்கு எதிராக பயிற்றுவிக்கின்றன. அந்த இலக்கு கட்டிடமைப்பு ரீதியாக வேறுபட்ட இரண்டு கண்டறிதல் கருவிகளின் ensemble ஆக இருக்கும்போது, மனிதமயமாக்கி இரண்டையும் ஒரே நேரத்தில் தோற்கடிக்க வேண்டும், இது ஒன்றை மட்டும் தோற்கடிப்பதை விட அர்த்தமுள்ள வகையில் கடினமானது. அதனால்தான் ஒரு கூறு இயக்குவது மலிவானதாக இருந்தாலும் உற்பத்தியில் ensemble பயன்படுத்துகிறோம்.

இந்த கட்டுரை AI உரை கண்டறிதலின் கட்டமைப்பு பண்புகளை விவரிக்கிறது. குறிப்பிட்ட எண்கள் எங்கள் உள்ளக சரிபார்ப்பை குறிக்கின்றன மற்றும் பொதுமைப்படுத்தாமல் இருக்கலாம். புதிய ஆராய்ச்சி மற்றும் மாதிரி வெளியீடுகள் தேவைக்கேற்ப இந்தப் பக்கத்தை புதுப்பிக்கிறோம்.