בית › עד כמה זיהוי AI מדויק? בנצ'מארק על פני 22 מודלי שפה גדולים | גלאי פלגיאט

עד כמה זיהוי AI מדויק? הבנצ'מארק שלנו על פני 22 מודלי שפה גדולים

אנו מפרסמים את הדיוק האמיתי של גלאי ה-AI שלנו מול 22 מודלים גנרטיביים, כולל GPT-5, Claude 4, Gemini 2 ו-Llama 3. טבלאות לכל מודל בנפרד, מגבלות כנות, וקובץ נתונים להורדה לחוקרים.

2026-04-17 · Plagiarism Detector Team

מדוע אנו מפרסמים את מספרי הדיוק שלנו

רוב כלי זיהוי ה-AI מבקשים שתסמכו על ציון אטום יחיד. אנו חושבים שמגיע לכם ראיות. בדף זה אנו משתפים את התוצאות המלאות של ריצת האימות הפנימית שלנו — כל גנרטור שבדקנו, ציון ה-AUC-ROC על כל אחד מהם, סוגי החיבורים שגרמו לנו לקשיים רבים ביותר, ורף ההחלטות שאנו משתמשים בו בייצור.

רמת שקיפות זו יוצאת דופן במרחב זיהוי ה-AI. מרבית המתחרים — ספקי כלי בדיקת פלגיאט, שירותי זיהוי AI מתמחים, כלי SaaS כלליים — מפרסמים או ללא נתוני דיוק כלל או מספר יחיד שנבחר בקפידה. הדפוס הזה אינו בר-קיימא: מחנכים, מוציאים לאור וחוקרים זקוקים לבנצ'מארקים ברי-הפקה לפני שיוכלו להסתמך על כל כלי.

המספרים שלנו מגיעים מפיצול אימות של 1,000 דגימות מקורפוס הכיול ששימש לאימון גלאי ModernBERT שלנו. אותה מתודולוגיה המניעה את הבנצ'מארק הזה פועלת על כל מסמך שאתם שולחים דרך הכלי שלנו. שום דבר לא מוחזק לצורכי הדגמות.

קורפוס הבדיקה והמתודולוגיה

קבוצת האימות מכילה 1,000 חיבורים שנלקחו מקורפוס כיול של 1,200 דגימות: 600 חיבורים שנכתבו על ידי בני אדם (מנתוני המשימה המשותפת PAN25 ומערך הנתונים של חיבורים ארגומנטטיביים PERSUADE) ו-600 חיבורים שנוצרו על ידי AI (שנוצרו על ידי 22 מודלי שפה גדולים נפרדים בהנחיה מבוקרת). פיצול האימון-אימות 80/20 קבוע וניתן לשחזור.

כל דגימה מקבלת ציון בנפרד, ללא גישה למטא-נתונים שיכולים לדלוף אמת יסוד. הגלאי מחזיר הסתברות ב-[0, 100] המייצגת את הסיכוי שהדגימה נוצרה על ידי AI. לאחר מכן אנו מחשבים את השטח מתחת לעקומת המאפיין תפעולי של המקלט (AUC-ROC) לכל גנרטור ובגובה סוג החיבור.

כל הרפים, היפרפרמטרים של אימון, ופלטי הסתברות גולמיים מתועדים. קובץ הנתונים עצמו זמין להורדה בתחתית הדף הזה — פורמט CSV, שורה אחת לכל דגימה, עם זהות הגנרטור, תווית סוג החיבור, ציון גולמי, ופסיקה בינארית סופית.

תוצאות ראשיות

על פני קבוצת 1,000 הדגימות המלאה, גלאי האנסמבל שלנו משיג AUC-ROC [AUC: 0.9884]. ברף ההחלטה של 50% שאנו משתמשים בו בייצור: 0 חיוביים שגויים על חיבורים אנושיים בקבוצת האימות, ו-60% recall על חיבורים שנוצרו על ידי AI. ברף ה-F1-אופטימלי של 26.56%, ה-recall עולה ל-90% במחיר של 2% חיוביים שגויים — פשרה המתאימה יותר לזרימות עבודה של סינון ברגישות גבוהה.

פסיקת רמת-המסמך בכלי הציבורי שלנו משתמשת ברף השמרני של 50%, תוך מתן עדיפות לאפס חיוביים שגויים על פני recall מרבי. מורים, מוציאים לאור וחוקרים יכולים לעקוף זאת דרך מחוון הרגישות בווידג'ט כשהם רוצים סימון אגרסיבי יותר.

לשם השוואה, רכיב ה-Binoculars ללא ירייה אפס (הגדרת Llama-3.1-8B כפולה) לבד משיג AUC [AUC: 0.8509] בנפרד. רכיב ה-ModernBERT המכוייל לבד משיג [AUC: 1.0000] על חיבורים מתוך ההתפלגות ו-[AUC: 0.9069] על טקסט מחוץ להתפלגות. האנסמבל יושב ביניהם על כל ציר יחיד אך עולה על שניהם בממוצע כי הוא מתקן את חולשותיהם המשלימות.

פירוט לכל גנרטור

להלן טבלת AUC-ROC לכל מודל. המודלים מסודרים מהקל ביותר לזיהוי לקשה ביותר בקבוצת האימות שלנו. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

מודלי OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. אחרים: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

הדפוס הראשי: מודלים חדשים יותר, גדולים יותר ומכווננים-להוראה נוטים לייצר טקסט שנראה יותר אנושי לכל גלאי סטטיסטי, כולל שלנו. Claude 4.5 Sonnet ו-GPT-5.x הם שתי המשפחות שבהן ההתפלגויות של הציונים שלנו חופפות ביותר לקו הבסיס האנושי. זה מתאים לכל מחקר עצמאי שפורסם ב-2025 — מרוץ החימוש הוא אמיתי וגודל המודל הוא רוח נגדית ישירה לזיהוי.

היכן הגלאי מתקשה

לא כל הטקסטים ניתנים לזיהוי באותה מידה. אנו מפרקים תוצאות לפי סוג החיבור — כל קטגוריית פרומפט PERSUADE — והפער בין הטוב לרע הוא רחב. [PER-TYPE TABLE]

חיבורים ארגומנטטיביים, שכנועיים ואקספוזיטוריים: התחום החזק ביותר של הגלאי. AUC בדרך כלל 0.97–1.00 מכיוון שקורפוסי האימון מעניקים יתר משקל לסגנונות אלה. זהו המקום בו נופלות רוב מקרי השימוש של שלמות אקדמית.

כתיבה יוצרת וניתוח ספרותי: התחום החלש ביותר שלנו. לניתוח_ספרותי ה-AUC יורד ל-0.69 — הסגנון האנושי בפיקציה מתכנס עם פלטי LLM ולא רכיב המפוקח שלנו ולא הרכיב ללא-ירייה יכולים להבחין ביניהם באופן מהימן. התייחסו לציון AI גבוה בפיקציה בספקנות.

נסו את הגלאי על הטקסט שלכם

הדביקו כל מסמך וראו את אותה פסיקה לכל משפט ורפי ההחלטה שאנו משתמשים בהם למספרי הבנצ'מארק. חינמי, ללא הרשמה.

מגבלות ומצבי כישלון

שלוש קטגוריות של טקסט בורחות מגלאי שלנו לעתים קרובות יותר ממה שקבוצת האימות שלנו מרמזת. טקסט AI שהוּאנס — פלט שעבר דרך כלי פרפרזה או העברת סגנון אנטגוניסטית — לעתים קרובות מקבל ציון כאנושי גם כאשר הטקסט הבסיסי נוצר לחלוטין. טקסט קצר (מתחת ל-100 מילים) קשה לסיווג כלל כי אין אות סטטיסטי מספיק. כתיבה באנגלית של דוברים לא ילידיים יכולה לקבל ציון כנוצרת-AI מכיוון שמודלי LLM וכותבי ESL חולקים העדפות לקסיקליות ותחביריות מסוימות.

הגלאי שלנו הוא הסתברותי, לא ראייתי. ציון AI גבוה הוא אות לחקור עוד, לא הוכחה לעבירת משמעת. אנו ממליצים בחום לשלב את הציון עם הקשר: היסטוריית עריכה אחרונה, טיוטות גרסאות, דוגמאות כתיבה מאותו מחבר, ו — במקום שמותר — שיחת המשך קצרה עם המחבר.

אנו מאמנים מחדש ברציפות על הפלטים האחרונים של הגנרטורים, אך תמיד קיים פיגור: מודל שיצא השבוע אולי אינו מיוצג היטב בנתוני האימון. אם זרימת העבודה שלכם תלויה בתפיסת המודלים האחרונים, בדקו מחדש את דף הבנצ'מארק שלנו מדי רבעון לקבלת המספרים המעודכנים.

הורד את מערך הנתונים המלא

אנו מפרסמים את תוצאות האימות הגולמיות כדי שחוקרים, עיתונאים ומחנכים יוכלו לאמת באופן עצמאי את טענותינו. ה-CSV מכיל: מזהה דגימה, זהות גנרטור (או 'human'), תווית סוג חיבור, פלט הסתברות גולמי, פסיקה בינארית ברף 50%, פסיקה בינארית ברף 26.56%.

הורדה: ai-detector-benchmark-2026-04.csv (מתעדכן מדי רבעון). שימוש אקדמי אינו מוגבל; פרסום מסחרי מחדש דורש ייחוס: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

לגרסה אינטראקטיבית של אותה מתודולוגיה על הטקסט שלכם, נסו את הכלי בודק AI & פלגיאט שלנו — הדביקו כל מסמך וראו את הפסיקה לכל משפט, אותם רפי ההחלטה, ואותו רווח הביטחון שאנו משתמשים בו למספרים שפורסמו.

שאלות נפוצות

כמה עתים הבנצ'מארק הזה מתעדכן?

כל רבעון. כאשר גנרטור מרכזי (GPT-6, Claude 5, Gemini 3) מושק, אנו מוסיפים אותו לקורפוס הבדיקה תוך 4 שבועות ומפרסמים מחדש את הטבלה המעודכנת. גרסאות היסטוריות מאוחסנות בשמות קבצים עם תאריך — מהדורת 2026-04 היא הגרסה היציבה הנוכחית.

מדוע אינכם מפרסמים פלטי הסתברות לכל דגימה?

אנו כן עושים זאת — ה-CSV להורדה מכיל הסתברויות גולמיות. מה שאיננו מפרסמים הוא טקסט החיבור המקורי, כיוון שקורפוס PAN25 ומערך הנתונים PERSUADE נושאים הגבלות הפצה. אם אתם רוצים את הטקסט, משכו את מערכי הנתונים האלה ישירות ממקורם (קישורים בתיעוד ה-CSV).

האם אפשר לסמוך על גלאי אם ה-AUC נמוך מ-1.0?

שום גלאי אינו משיג AUC 1.0 על כל גנרטור, ולכן השאלה אינה ‘האם הוא מושלם’ אלא ‘האם הוא שקוף.’ גלאי שמפרסם AUC 0.95 ומספר לכם היכן הוא מתקשה הוא מהימן יותר מאחד שמפרסם ‘דיוק מוביל בתעשייה’ ללא מספר. ה-AUC שלנו [AUC: 0.9884] הוא ביצועים ממוצעים כנים; הפירוטים לכל גנרטור ולכל סוג חיבור הם המקום שבו עליכם לקבל את ההחלטה ברכישה.

האם גלאי ה-AI שלכם מוכן לפרסום אקדמי?

המתודולוגיה הבסיסית כן — Binoculars (ICML 2024) ו-ModernBERT הם שניהם ארכיטקטורות שעברו ביקורת עמיתים. קורפוס הכיול הספציפי שלנו והרפים הם קנייניים, אך מתודולוגיית הבנצ'מארק ניתנת לשחזור מלא.

כיצד הכלי המקוון החינמי משתווה למוצר שולחני?

אותו מנוע, אותם מספרי דיוק, אותה לוגיקת פסיקה לכל משפט. המוצר השולחני מוסיף אורך מסמך בלתי מוגבל, סריקה לא מקוונת, התאמה משולבת של פלגיאט מול 4 מיליארד דפי אינטרנט, ועיבוד אצווה של תיקיות שלמות. לבדיקות חד-פעמיות הכלי המקוון מספיק; לזרימות עבודה יומיות, המוצר השולחני הוא הכלי הנכון.

תוצאות הבנצ'מארק נגזרות מקבוצת האימות הפנימית שלנו ועלולות שלא להכליל לטקסט מחוץ להתפלגות. המספרים שפורסמו מייצגים ביצועים ממוצעים על פני 1,000 דגימות; המסמך שלכם עלול לקבל ציון שונה. השתמשו בתוצאות זיהוי AI כקלט אחד מבין רבים, ולא כראיה בלעדית לזכות היוצרים.