YZ dedektörümüzün GPT-5, Claude 4, Gemini 2 ve Llama 3 dahil 22 üretken model üzerindeki gerçek dünya doğruluğunu yayınlıyoruz. Model başına tablolar, dürüst sınırlamalar ve araştırmacılar için indirilebilir veri seti.
Çoğu YZ tespit aracı sizi tek bir opak skora güvenmeye davet eder. Bizce kanıt hak ediyorsunuz. Bu sayfada dahili doğrulama çalışmamızın tam sonuçlarını paylaşıyoruz — test ettiğimiz her jeneratör, her birindeki AUC-ROC skoru, bize en fazla sorun çıkaran deneme türleri ve üretimde kullandığımız karar eşikleri.
Bu düzeyde şeffaflık, YZ-tespit alanında alışılmışın dışındadır. Çoğu rakip — intihal denetleyici satıcılar, uzman YZ-tespit hizmetleri, genel SaaS araçları — ya hiç doğruluk verisi yayınlamaz ya da tek bir seçilmiş sayı yayınlar. Bu örüntü sürdürülemez: eğitimciler, yayıncılar ve araştırmacıların herhangi bir araca güvenebilmeden önce tekrarlanabilir kıyaslamalara ihtiyacı var.
Sayılarımız, ModernBERT dedektörümüzü eğitmek için kullanılan kalibrasyon gövdesinin 1.000 örnekli doğrulama bölümünden elde edilmektedir. Bu kıyaslamayı destekleyen metodoloji, aracımız aracılığıyla gönderdiğiniz her belgede çalışır. Demolar için hiçbir şey gizlenmez.
Doğrulama seti, 1.200 örnekli bir kalibrasyon gövdesinden alınan 1.000 denemeden oluşmaktadır: 600 insan yazımı deneme (PAN25 paylaşımlı görev verilerinden ve PERSUADE argüman denemeleri veri setinden) ve 600 YZ tarafından oluşturulan deneme (kontrollü yönlendirme altında 22 farklı büyük dil modeli tarafından üretilmiştir). %80/%20 eğitim-doğrulama bölümü sabit ve tekrarlanabilirdir.
Her örnek, gerçeği sızdırabilecek meta verilere erişim olmaksızın ayrı ayrı puanlanır. Dedektör, örneğin YZ tarafından oluşturulma olasılığını temsil eden [0, 100] aralığında bir olasılık döndürür. Ardından jeneratör başına ve deneme türü düzeyinde alıcı işletim karakteristiği eğrisinin altındaki alanı (AUC-ROC) hesaplarız.
Tüm eşikler, eğitim hiper parametreleri ve ham olasılık çıktıları günlüğe kaydedilir. Veri setinin kendisi bu sayfanın alt kısmından indirilebilir — CSV formatında, örnek başına bir satır; jeneratör kimliği, deneme türü etiketi, ham skor ve nihai ikili karar ile birlikte.
Tam 1.000 örnekli set genelinde, topluluk dedektörümüz AUC-ROC [AUC: 0.9884] elde etmektedir. Üretimde kullandığımız %50 karar eşiğinde: doğrulama setindeki insan denemelerinde 0 yanlış pozitif ve YZ denemelerinde %60 geri çağırma. %26,56'lık F1-optimal eşiğinde, geri çağırma %90'a yükselirken %2 yanlış pozitif maliyeti oluşur — bu denge, yüksek duyarlılıklı tarama iş akışları için daha uygundur.
Genel aracımızdaki belge düzeyi kararı, maksimum geri çağırmanın üzerinde sıfır yanlış pozitife öncelik vererek muhafazakâr %50 eşiğini kullanır. Öğretmenler, yayıncılar ve araştırmacılar, daha agresif işaretleme istediklerinde widget'taki duyarlılık kaydırıcısı aracılığıyla bunu geçersiz kılabilir.
Karşılaştırma için, yalnızca Binoculars sıfır-atış bileşeni (2× Llama-3.1-8B kurulumu) tek başına AUC [AUC: 0.8509] elde etmektedir. İnce ayarlı ModernBERT bileşeni tek başına dağılım içi denemelerde [AUC: 1.0000] ve dağılım dışı metinde [AUC: 0.9069] elde etmektedir. Topluluk, herhangi bir tek eksende ikisinin arasında yer almaktadır ancak tamamlayıcı zayıflıklarını düzelterek ortalamada her ikisinden de üstündür.
İşte model başına AUC-ROC tablosu. Modeller, doğrulama setimizdeki tespit edilmesi en kolaydan en zora doğru sıralanmıştır. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI modelleri: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Diğerleri: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Başlık örüntüsü: daha yeni, daha büyük, talimat ayarlı modeller, bizimkiler de dahil olmak üzere herhangi bir istatistiksel dedektöre daha insanca görünen metinler üretme eğilimindedir. Claude 4.5 Sonnet ve GPT-5.x, skor dağılımlarımızın insan temeliyle en fazla örtüştüğü iki ailedir. Bu, 2025 yılında yayınlanan her bağımsız çalışmayla örtüşmektedir — silah yarışı gerçektir ve model boyutu, tespit için doğrudan bir engel oluşturmaktadır.
Her metin eşit derecede tespit edilebilir değildir. Sonuçları deneme türüne göre — her PERSUADE komut kategorisine göre — ayrıştırıyoruz ve en iyi ile en kötü arasındaki fark oldukça geniştir. [PER-TYPE TABLE]
Argüman, ikna edici ve açıklayıcı denemeler: dedektörün en güçlü olduğu alan. Eğitim gövdeleri bu stillere aşırı ağırlık verdiğinden AUC genellikle 0,97–1,00 aralığındadır. Akademik bütünlük kullanım durumlarının büyük çoğunluğu buraya girer.
Yaratıcı yazarlık ve edebi analiz: en zayıf olduğumuz alan. literary_analysis için AUC 0,69'a düşmektedir — kurgudaki insan stili LLM çıktılarıyla yakınsıyor ve ne denetimli ne de sıfır-atış bileşenimiz bunları güvenilir biçimde ayırt edebilir. Kurgudaki yüksek bir YZ skoruna şüpheyle yaklaşın.
Herhangi bir belgeyi yapıştırın ve bu kıyaslama rakamları için kullandığımız cümle başına kararı ve karar eşiklerini görün. Ücretsiz, kayıt gerekmez.
Üç tür metin, doğrulama setimizdeki önerimizden daha sık dedektörümüzden kaçmaktadır. İnsanlaştırılmış YZ metni — çıktının olumsallık başka bir araçtan geçirilmesi veya stil transferi — temel metin tamamen oluşturulmuş olsa bile genellikle insan olarak puanlanır. Kısa metin (100 kelimenin altında) yetersiz istatistiksel sinyal nedeniyle sınıflandırılamaz. Ana dili İngilizce olmayan yazılar, LLM'ler ve ESL yazarlarının belirli sözcüksel ve sözdizimsel tercihler paylaştığından YZ üretimi olarak puanlanabilir.
Dedektörümüz olasılıksal bir araçtır, kanıt niteliği taşımaz. Yüksek bir YZ skoru, daha fazla araştırma yapılması için bir sinyaldir, suistimal kanıtı değildir. Skoru bağlamla eşleştirmenizi şiddetle tavsiye ederiz: son düzenleme geçmişi, sürüm taslakları, aynı yazara ait yazı örnekleri ve — izin verildiğinde — yazarla kısa bir takip görüşmesi.
En son jeneratör çıktıları üzerinde sürekli yeniden eğitim yapıyoruz, ancak her zaman bir gecikme vardır: geçen hafta piyasaya çıkan bir model, eğitim verilerinde iyi temsil edilmiyor olabilir. İş akışınız en son modelleri yakalamaya bağlıysa, güncellenmiş rakamlar için kıyaslama sayfamızı her çeyrekte yeniden kontrol edin.
Araştırmacıların, gazetecilerin ve eğitimcilerin iddialarımızı bağımsız olarak doğrulayabilmesi için ham doğrulama sonuçlarını yayınlıyoruz. CSV şunları içerir: örnek kimliği, jeneratör kimliği (veya 'insan'), deneme türü etiketi, ham olasılık çıktısı, %50 eşiğinde ikili karar, %26,56 eşiğinde ikili karar.
İndirin: ai-detector-benchmark-2026-04.csv (üç ayda bir güncellenir). Akademik kullanım sınırsızdır; ticari yeniden yayımlama, atıf gerektirir: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
Aynı metodolojinin kendi metniniz üzerindeki etkileşimli bir sürümü için YZ & İntihal Denetleyici aracımızı deneyin — herhangi bir belgeyi yapıştırın ve bu yayınlanan rakamlar için kullandığımız cümle başına kararı, aynı karar eşiklerini ve aynı güven aralığını görün.
Kıyaslama sonuçları dahili doğrulama setimizdeki verilere dayanmaktadır ve dağılım dışı metinlere genelleşmeyebilir. Yayınlanan rakamlar 1.000 örnek genelindeki ortalama performansı temsil etmektedir; belgeniz farklı puanlanabilir. YZ tespit sonuçlarını yazarlığın tek kanıtı olarak değil, birçok girdiden biri olarak kullanın.