Δεν είναι εξίσου ανιχνεύσιμο όλο το κείμενο AI. Εδώ είναι τα αποτελέσματα του δείκτη αναφοράς μας ανά δημιουργό — ποιες οικογένειες μοντέλων ανιχνεύει ο ανιχνευτής μας με σχεδόν τέλεια ακρίβεια, ποιες αντιμετωπίζει με δυσκολία και τι μας λέει αυτό για την επιλογή ροής εργασίας ανίχνευσης.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Ταξινομημένο από πιο εύκολο έως πιο δύσκολο εντοπισμό στο σύνολο επικύρωσής μας. Η διαφορά είναι μεγάλη — το AUC σε ορισμένες οικογένειες μοντέλων υπερβαίνει το 0,99 ενώ άλλα πέφτουν στα 0,80. Η δυσκολία εντοπισμού συσχετίζεται με το μέγεθος μοντέλου, την πολυπλοκότητα βελτιστοποίησης οδηγιών και τη διακύμανση εξόδου.
Για την πλήρη μεθοδολογία ανάλυσης ανά δημιουργό, δείτε τη σελίδα δείκτη αναφοράς ακρίβειας μας. Αυτό το άρθρο συνοψίζει τις πρακτικές επιπτώσεις αυτών των δεδομένων για τους χρήστες που επιλέγουν ποιον ανιχνευτή να εμπιστευτούν και ποιο μοντέλο να χρησιμοποιήσουν.
Το GPT-3.5 είναι το πιο εύκολο σύγχρονο μοντέλο για εντοπισμό — AUC [AUC: ?] στο σύνολό μας. Τα τεχνουργήματα παλαιάς γενιάς (επανάληψη, αμφιταλάντευση, αδιάφορο ύφος) παραμένουν σαφώς παρόντα. Το GPT-4 μειώνεται σε AUC [AUC: ?], το GPT-4o σε [AUC: ?], αντανακλώντας προοδευτικά καλύτερη βαθμονόμηση. Το GPT-5.x είναι το πιο δύσκολο της οικογένειας — AUC [AUC: ?] — επειδή η ομάδα βελτιστοποίησης οδηγιών στόχευσε ρητά στην αφαίρεση τεχνουργημάτων εντοπισμού.
Πρακτική επίπτωση: οι ακαδημαϊκές ροές εργασίας που αφορούν απάτη εποχής GPT-3.5 μπορούν να βασίζονται σε μεγάλο βαθμό στον εντοπισμό μόνο. Οι ροές εργασίας που αφορούν το GPT-5 πρέπει να συνδυάζουν εντοπισμό με συμφραζόμενα στοιχεία, όπως περιγράφεται στον οδηγό ροής εργασίας για καθηγητές μας.
Οι ρυθμίσεις θερμοκρασίας έχουν σημασία. Οι έξοδοι χαμηλής θερμοκρασίας (t≤0,5) είναι πιο εύκολο να εντοπιστούν επειδή συγκεντρώνουν πιθανοτική μάζα σε στενότερο λεξιλόγιο. Οι περισσότερες διεπαφές συνομιλίας προεπιλέγουν t≈0,7, τοποθετώντας κείμενο σε μια μέτρια ανιχνεύσιμη ζώνη. Οι αντίπαλοι χρήστες ρυθμίζουν ρητά υψηλότερη θερμοκρασία ή χρησιμοποιούν διαφορετική αποκωδικοποίηση για να διευρύνουν το εύρος και να αποφύγουν την ανίχνευση — το ensemble μας διορθώνει εν μέρει αλλά όχι πλήρως.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Η οικογένεια Claude παράγει σταθερά λιγότερο επαναλαμβανόμενο, πιο στυλιστικά ποικίλο κείμενο από τα μοντέλα GPT ίδιας γενιάς, γεγονός που το καθιστά πιο δύσκολο να εντοπιστεί με στατιστικές μεθόδους.
Η εκπαίδευση συνταγματικού AI του Claude στοχεύει συγκεκριμένα τα “σημάδια μηχανής” από τα οποία μαθαίνει ο εποπτευόμενος ταξινομητής μας — μοτίβα αμφιταλάντευσης, υπερβολική χρήση συγκεκριμένων συνδέσμων, προβλέψιμη δομή παραγράφου. Πρόκειται για άμεση αντίπαλη σχέση: ο δημιουργός εκπαιδεύεται κατά χαρακτηριστικών στα οποία βασίζεται ο ανιχνευτής.
Τα Claude 4.5 Sonnet και GPT-5.x είναι κοντά σε δυσκολία. Οι κατανομές βαθμολογίας τους επικαλύπτουν περισσότερο την ανθρώπινη βάση στα δεδομένα επικύρωσής μας. Εάν η ροή εργασίας σας στοχεύει ένα από αυτά τα μοντέλα, αναμένετε μειωμένη ανάκληση στο προεπιλεγμένο κατώφλι και σκεφτείτε τη μείωση στο βέλτιστο F1 για σάρωση υψηλής ευαισθησίας.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Το Gemini έχει δείξει την πιο μεταβλητή απόδοση εντοπισμού σε εκδόσεις — ορισμένες ενδιάμεσες εκδόσεις υποχώρησαν προσωρινά πριν φτάσουν βελτιώσεις.
Η πολυτροπική εκπαίδευση του Gemini σημαίνει ότι οι έξοδοι μόνο κειμένου φέρουν μερικές φορές απολιθωμένα μοτίβα από περιγραφές εικόνας ή τομείς εξήγησης κώδικα. Ο ανιχνευτής μας τα εντοπίζει, γεγονός που εξηγεί τον ελαφρώς υψηλότερο βαθμό ανιχνευσιμότητας του Gemini σε προτροπές μικτού τομέα σε σχέση με την καθαρή πεζογραφία.
Για χρήστες Google Workspace των οποίων οι φοιτητές ή υπάλληλοι χρησιμοποιούν το Gemini μέσω Docs, το σήμα εντοπισμού είναι παρόμοιο με την ακατέργαστη έξοδο API. Δεν έχουμε παρατηρήσει μοτίβα αποφυγής ειδικά για ενσωμάτωση χώρου εργασίας, διαφορετικά από την άμεση χρήση Gemini API.
Επικολλήστε έξοδο από οποιοδήποτε LLM και δείτε την ετυμηγορία ανά πρόταση. Ο ανιχνευτής μας αντιμετωπίζει και τις 22 οικογένειες μοντέλων ως έναν ενιαίο έλεγχο ensemble.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Τα μοντέλα ανοιχτών βαρών εκτείνονται σε ευρύτερο εύρος από τα κλειστά — παραλλαγές λεπτής ρύθμισης, ποσοτικοποιημένες αναπτύξεις και κοινοτικά τροποποιημένα σημεία ελέγχου παράγουν ελαφρώς διαφορετικές εξόδους.
Ο εντοπισμός σε ανοιχτά βάρη έχει στρατηγική σημασία επειδή τα εργαλεία εξανθρωπισμού είναι συνήθως χτισμένα σε μοντέλα ανοιχτών βαρών — οι παράγωγοι Llama και Mistral εκτελούνται τοπικά με χαμηλό κόστος, γι’ αυτό οι υπηρεσίες παράφρασης και μεταφοράς στυλ τα τιμολογούν ανάλογα. Αν η ανησυχία σας είναι το εξανθρωπισμένο AI, υπερασπίζεστε τελικά κατά παραγωγής οικογένειας Llama.
Το DeepSeek R1 και το o3-mini (μοντέλο συλλογισμού OpenAI) αξίζουν ξεχωριστής αναφοράς. Και τα δύο παράγουν κείμενο με τεχνουργήματα αλυσίδας συλλογισμού — ρητή βήμα-προς-βήμα λογική ορατή στην έξοδο — που ο ανιχνευτής μας έχει μάθει να αναγνωρίζει. Τα μοντέλα συλλογισμού είναι επί του παρόντος πιο εύκολο να εντοπιστούν από τα αντίστοιχα βασικά μοντέλα συνομιλίας.
Αν επιλέγετε ένα μοντέλο για γραφή και ο εντοπισμός δεν είναι η ανησυχία σας, το Claude 4.5 Sonnet και το GPT-5 είναι τα πιο δύσκολο να εντοπιστούν. Αν δημιουργείτε ροή εργασίας εντοπισμού, δώστε προτεραιότητα στα μοντέλα που βλέπετε πραγματικά: η περισσότερη ακαδημαϊκή κακή χρήση εξακολουθεί να εκτελείται μέσω GPT-4/5 μέσω δωρεάν διεπαφών· η περισσότερη καλλιέργεια περιεχομένου εκτελείται σε εξανθρωπιστές παράγωγους Llama.
Ένας ενιαίος ανιχνευτής εκπαιδευμένος σε μια μόνο οικογένεια μοντέλων θα αποδίδει χειρότερα στις υπόλοιπες. Η προσέγγιση ensemble μας εκπαιδεύεται σε δείγματα και από τους 22 δημιουργούς, γι’ αυτό το AUC ανά μοντέλο σε δύσκολες περιπτώσεις (Claude 4.5, GPT-5) παραμένει άνω του 0,90 ενώ οποιοσδήποτε ανιχνευτής εκπαιδευμένος σε ένα μόνο μοντέλο θα έπεφτε κάτω από 0,80.
Η υποκείμενη τάση: η δυσκολία εντοπισμού αυξάνεται ταχύτερα από τον ρυθμό κυκλοφορίας δημιουργών. Κάθε νέα ναυαρχίδα είναι πιο δύσκολο να εντοπιστεί από την προηγούμενη· η επανεκπαίδευση κλείνει το χάσμα αλλά όχι πλήρως. Αναμένετε ότι η βάση 2026–2027 θα έχει χαμηλότερο AUC στα μοντέλα αιχμής και περίπου σταθερό στα παλαιά μοντέλα.
Οι αριθμοί AUC ανά μοντέλο προέρχονται από την εσωτερική μας επικύρωση και ενδέχεται να μη γενικεύονται. Η δυσκολία κάθε μοντέλου αλλάζει με την πάροδο του χρόνου καθώς εξελίσσονται τόσο ο δημιουργός όσο και το corpus εκπαίδευσής μας. Τα τρέχοντα δεδομένα αντανακλούν την εκτέλεση δείκτη αναφοράς 2026-04.