לא כל טקסט AI ניתן לזיהוי באותה מידה. הנה תוצאות הבנצ'מארק שלנו לכל גנרטור — אילו משפחות מודלים הגלאי שלנו תופס בדיוק כמעט-מושלם, על אילו הוא מתקשה, ומה זה אומר לכם לגבי בחירת זרימת עבודה לזיהוי.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
מסודר מהקל ביותר לזיהוי לקשה ביותר על קבוצת האימות שלנו. הפיזור רחב — AUC על חלק ממשפחות המודלים עולה על 0.99 בעוד אחרים נופלים לתוך ה-0.80. קושי הזיהוי מתאם עם גודל המודל, תחכום כיוון-ההוראה, ושונות הפלט.
לפירוט המלא של מתודולוגיית הבנצ'מארק לכל גנרטור, ראו את דף בנצ'מארק הדיוק שלנו. מאמר זה מסכם את ההשלכות המעשיות של הנתונים הללו עבור משתמשים שבוחרים באיזה גלאי לסמוך ואיזה מודל להשתמש.
GPT-3.5 הוא המודל המודרני הקל ביותר לזיהוי — AUC [AUC: ?] על הסט שלנו. ממצאי הייצור הישן (חזרה, גיוס, רגיסטר bland) נותרים ברורים. GPT-4 יורד ל-AUC [AUC: ?], GPT-4o ל-[AUC: ?], המשקף כיול טוב יותר בהדרגה. GPT-5.x הוא הקשה ביותר מהמשפחה — AUC [AUC: ?] — כיוון שצוות כיוון-ההוראה ביקש במפורש הסרת ממצאי-זיהוי.
השלכה מעשית: זרימות עבודה אקדמיות שדואגות לרמאות מעידן GPT-3.5 יכולות להסתמך רבות על הזיהוי לבדו. זרימות עבודה שדואגות ל-GPT-5 צריכות לשלב זיהוי עם ראיות הקשריות, כמתואר במדריך זרימת העבודה למורים שלנו.
הגדרות הטמפרטורה חשובות. פלטים בטמפרטורה נמוכה (t≤0.5) קלים יותר לזיהוי מפני שהם מרכזים מסת הסתברות על אוצר מילים צר יותר. רוב ממשקי הצ'אט מוגדרים כברירת מחדל ל-t≈0.7, מה שמציב טקסט באזור ניתן-לזיהוי בינוני. משתמשים אנטגוניסטים מגבירים במפורש טמפרטורה או משתמשים בפענוח מגוון להרחבת הטווח ולהתחמקות מזיהוי — האנסמבל שלנו מתקן זאת חלקית אך לא לחלוטין.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. משפחת Claude מייצרת באופן עקבי טקסט פחות חזרתי ומגוון יותר מבחינת סגנון ממודלי GPT מאותו דור, מה שמקשה על זיהויה באמצעות שיטות סטטיסטיות.
אימון ה-constitutional-AI של Claude מכוון ספציפית ל“סימני המכונה” שהמסווג המפוקח שלנו לומד מהם — דפוסי גיוס, שימוש יתר במחברים ספציפיים, מבנה פסקאות צפוי. זהו יחס אנטגוניסטי ישיר: הגנרטור מאומן מול התכונות שהגלאי מסתמך עליהן.
Claude 4.5 Sonnet ו-GPT-5.x קרובים בקושי. ההתפלגויות של הציונים שלהם חופפות ביותר לקו הבסיס האנושי בנתוני האימות שלנו. אם זרימת העבודה שלכם מכוונת לאחד ממודלים אלה, צפו ל-recall מופחת ברף ברירת המחדל ושקלו להוריד לרף F1-אופטימלי לסינון ברגישות גבוהה.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini הראה את ביצועי הזיהוי המשתנים ביותר בין גרסאות — כמה הוצאות ביניים רגרסו זמנית לפני שהשיפורים נחתו.
האימון הרב-מודלי של Gemini אומר שפלטי טקסט-בלבד לפעמים נושאים דפוסים שיוריים מתחומי תיאור-תמונה או הסבר-קוד. הגלאי שלנו קולט אלה, מה שמסביר את יכולת הזיהוי הגבוהה יותר במקצת של Gemini על פרומפטים בתחומים מעורבים בהשוואה לפרוזה טהורה.
עבור משתמשי Google Workspace שהתלמידים או העובדים שלהם משתמשים ב-Gemini דרך Docs, אות הזיהוי דומה לפלט ה-API הגולמי. לא צפינו בדפוסי התחמקות ספציפיים לשילוב-סביבת-עבודה השונים מהשימוש הישיר ב-Gemini API.
הדביקו פלט מכל LLM וראו את הפסיקה לכל משפט. הגלאי שלנו מתייחס לכל 22 משפחות המודלים כבדיקת אנסמבל אחת.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. מודלים עם-משקלים-פתוחים מתפרסים על טווח רחב יותר מסגורים — וריאנטים מכווננים-דקות, פריסות כמותיות, ונקודות-ביקורת שונו-על-ידי-קהילה כולם מייצרים פלטים שונים בדקות.
זיהוי על מודלים-פתוחים חשוב אסטרטגית מפני שכלי הומנייזר נבנים בדרך כלל על מודלים עם-משקלים-פתוחים — נגזרות Llama ו-Mistral רצות מקומית בעלות נמוכה, שהיא הסיבה שהמחירים של שירותי פרפרזה והעברת סגנון מתאימים להם. אם הדאגה שלכם היא AI מוּאנס, אתם בסופו של דבר מגנים מפני ייצור משפחת-Llama.
DeepSeek R1 ו-o3-mini (מודל הנימוק של OpenAI) ראויים לאזכור נפרד. שניהם מייצרים טקסט עם ממצאי שרשרת-נימוק — לוגיקה שלב-אחר-שלב מפורשת הנראית בפלט — שהגלאי שלנו למד לזהות. מודלים של נימוק ניתנים לזיהוי יותר כרגע מאשר עמיתיהם בצ'אט-בסיסי מסיבה זו.
אם אתם בוחרים מודל לכתיבה בו וזיהוי אינו בראש מעייניכם, Claude 4.5 Sonnet ו-GPT-5 הם הקשים ביותר לזיהוי. אם אתם בונים זרימת עבודה לזיהוי, תעדיפו את המודלים שאתם רואים בפועל: רוב ניצול לרעה אקדמי עדיין רץ על GPT-4/5 דרך ממשקים חינמיים; רוב חוות התוכן רצות על הומנייזרים בנגזרות-Llama.
גלאי יחיד שאומן על משפחת מודלים יחידה יניב ביצועים גרועים ביותר על האחרים. גישת האנסמבל שלנו מאמנת על דגימות מכל 22 הגנרטורים, שזוהי הסיבה שה-AUC לכל מודל במקרים קשים (Claude 4.5, GPT-5) עדיין מעל 0.90 בעוד שכל גלאי שאומן על-מודל-יחיד היה יורד מתחת ל-0.80.
המגמה הבסיסית: קושי הזיהוי עולה מהר יותר מקצב הוצאת הגנרטורים. כל דגל חדש קשה יותר לזיהוי מהקודם, אימון מחדש סוגר את הפער אך לא לחלוטין. צפו שקו הבסיס 2026–2027 יהיה AUC נמוך יותר על מודלים חזיתיים ובערך קבוע על מודלים ישנים.
מספרי AUC לכל מודל נגזרים מאימות פנימי שלנו ועלולים שלא להכליל. קושי כל מודל משתנה לאורך זמן ככל שגם הגנרטור וגם קורפוס האימון שלנו מתפתחים. הנתונים הנוכחיים משקפים ריצת הבנצ'מארק 2026-04.