Rumah › Seberapa Akurat Deteksi AI? Benchmark terhadap 22 LLM | Detektor Plagiarisme

Seberapa Akurat Deteksi AI? Benchmark Kami terhadap 22 LLM

Kami mempublikasikan akurasi detektor AI kami di dunia nyata terhadap 22 model generatif, termasuk GPT-5, Claude 4, Gemini 2, dan Llama 3. Tabel per model, keterbatasan yang jujur, dan dataset yang dapat diunduh untuk para peneliti.

2026-04-17 · Plagiarism Detector Team

Mengapa Kami Mempublikasikan Angka Akurasi Kami

Sebagian besar alat deteksi AI meminta Anda mempercayai satu skor yang tidak transparan. Kami rasa Anda berhak mendapat bukti. Di halaman ini kami berbagi hasil lengkap dari proses validasi internal kami — setiap generator yang kami uji, skor AUC-ROC pada masing-masing, jenis esai yang paling menyulitkan kami, dan ambang batas keputusan yang kami gunakan dalam produksi.

Tingkat transparansi ini tidak biasa dalam dunia deteksi AI. Sebagian besar pesaing — vendor pemeriksa plagiarisme, layanan deteksi AI khusus, alat SaaS umum — tidak mempublikasikan data akurasi sama sekali atau hanya satu angka yang dipilih secara selektif. Pola ini tidak dapat dipertahankan: para pendidik, penerbit, dan peneliti membutuhkan benchmark yang dapat direproduksi sebelum mereka dapat mengandalkan alat apa pun.

Angka-angka kami berasal dari pembagian validasi 1.000 sampel dari korpus kalibrasi yang digunakan untuk melatih detektor ModernBERT kami. Metodologi yang sama yang mendorong benchmark ini berjalan pada setiap dokumen yang Anda kirimkan melalui alat kami. Tidak ada yang disembunyikan untuk demo.

Korpus Uji dan Metodologi

Set validasi berisi 1.000 esai yang diambil dari korpus kalibrasi 1.200 sampel: 600 esai yang ditulis manusia (dari data tugas bersama PAN25 dan dataset esai argumentatif PERSUADE) dan 600 esai yang dihasilkan AI (diproduksi oleh 22 model bahasa besar yang berbeda di bawah prompting terkontrol). Pembagian pelatihan-validasi 80/20 bersifat tetap dan dapat diulang.

Setiap sampel dinilai secara terpisah, tanpa akses ke metadata yang dapat membocorkan kebenaran dasar. Detektor menghasilkan probabilitas dalam [0, 100] yang mewakili kemungkinan bahwa sampel dihasilkan oleh AI. Kami kemudian menghitung area di bawah kurva karakteristik operasi penerima (AUC-ROC) per generator dan pada tingkat jenis esai.

Semua ambang batas, hyperparameter pelatihan, dan output probabilitas mentah dicatat. Dataset itu sendiri tersedia untuk diunduh di bagian bawah halaman ini — format CSV, satu baris per sampel, dengan identitas generator, label jenis esai, skor mentah, dan keputusan biner akhir.

Hasil Utama

Pada seluruh set 1.000 sampel, detektor ensemble kami mencapai AUC-ROC [AUC: 0.9884]. Pada ambang batas keputusan 50% yang kami gunakan dalam produksi: 0 positif palsu pada esai manusia dalam set validasi, dan 60% recall pada esai AI. Pada ambang batas F1-optimal sebesar 26,56%, recall meningkat hingga 90% dengan biaya 2% positif palsu — sebuah tradeoff yang lebih cocok untuk alur kerja penyaringan sensitivitas tinggi.

Keputusan tingkat dokumen pada alat publik kami menggunakan ambang batas konservatif 50%, memprioritaskan nol positif palsu daripada recall maksimum. Guru, penerbit, dan peneliti dapat mengganti ini melalui penggeser sensitivitas di widget saat mereka menginginkan penandaan yang lebih agresif.

Sebagai perbandingan, komponen zero-shot Binoculars saja (pengaturan Llama-3.1-8B 2×) mendapatkan skor AUC [AUC: 0.8509] secara mandiri. Komponen ModernBERT yang sudah disesuaikan saja mendapatkan skor [AUC: 1.0000] pada esai in-distribusi dan [AUC: 0.9069] pada teks out-of-distribusi. Ensemble berada di antara keduanya pada sumbu mana pun tetapi mengungguli keduanya secara rata-rata karena memperbaiki kelemahan komplementer mereka.

Rincian Per Generator

Berikut adalah tabel AUC-ROC per model. Model diurutkan dari yang termudah hingga tersulit untuk dideteksi pada set validasi kami. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Model OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Lainnya: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Pola utama: model yang lebih baru, lebih besar, dan disesuaikan instruksi cenderung menghasilkan teks yang terlihat lebih manusiawi bagi detektor statistik mana pun, termasuk milik kami. Claude 4.5 Sonnet dan GPT-5.x adalah dua keluarga di mana distribusi skor kami paling banyak tumpang tindih dengan baseline manusia. Ini sesuai dengan setiap studi independen yang diterbitkan pada 2025 — perlombaan senjata itu nyata dan ukuran model merupakan hambatan langsung bagi deteksi.

Di Mana Detektor Kesulitan

Tidak semua teks sama-sama dapat dideteksi. Kami memecah hasil berdasarkan jenis esai — setiap kategori prompt PERSUADE — dan kesenjangan antara yang terbaik dan terburuk sangat lebar. [PER-TYPE TABLE]

Esai argumentatif, persuasif, dan ekspositori: domain terkuat detektor. AUC biasanya 0,97–1,00 karena korpus pelatihan terlalu berat pada gaya-gaya ini. Inilah tempat sebagian besar kasus penggunaan integritas akademik berada.

Penulisan kreatif dan analisis sastra: domain terlemah kami. Untuk literary_analysis, AUC turun ke 0,69 — gaya manusia dalam fiksi menyatu dengan output LLM dan komponen supervisi maupun zero-shot kami tidak dapat membedakannya secara andal. Perlakukan skor AI tinggi pada fiksi dengan skeptisisme.

Coba detektor pada teks Anda sendiri

Tempelkan dokumen apa pun dan lihat keputusan per kalimat dan ambang batas keputusan yang sama yang kami gunakan untuk angka benchmark ini. Gratis, tanpa pendaftaran.

Keterbatasan dan Mode Kegagalan

Tiga kelas teks lolos dari detektor kami lebih sering dari yang disarankan set validasi kami. Teks AI yang dimanusiakan — output yang dilewatkan melalui alat parafrase atau transfer gaya adversarial — sering mendapat skor sebagai manusia meskipun teks yang mendasarinya sepenuhnya dihasilkan. Teks pendek (di bawah 100 kata) sulit diklasifikasikan sama sekali karena sinyal statistik tidak mencukupi. Tulisan bahasa Inggris non-pribumi dapat diberi skor sebagai AI-generated karena LLM dan penulis ESL memiliki preferensi leksikal dan sintaksis tertentu yang sama.

Detektor kami bersifat probabilistik, bukan evidentiary. Skor AI tinggi adalah sinyal untuk menyelidiki lebih lanjut, bukan bukti pelanggaran. Kami sangat menyarankan untuk menggabungkan skor dengan konteks: riwayat pengeditan terkini, draf versi, sampel tulisan dari penulis yang sama, dan — jika diizinkan — percakapan singkat tindak lanjut dengan penulis.

Kami terus melatih ulang pada output generator terbaru, tetapi selalu ada jeda: sebuah model yang dirilis minggu lalu mungkin belum terwakili dengan baik dalam data pelatihan. Jika alur kerja Anda bergantung pada menangkap model terbaru, periksa kembali halaman benchmark kami setiap kuartal untuk angka yang diperbarui.

Unduh Dataset Lengkap

Kami mempublikasikan hasil validasi mentah sehingga peneliti, jurnalis, dan pendidik dapat memverifikasi klaim kami secara mandiri. CSV berisi: ID sampel, identitas generator (atau 'human'), label jenis esai, output probabilitas mentah, keputusan biner pada ambang batas 50%, keputusan biner pada ambang batas 26,56%.

Unduh: ai-detector-benchmark-2026-04.csv (diperbarui setiap kuartal). Penggunaan akademis tidak dibatasi; penerbitan ulang komersial memerlukan atribusi: “Detektor Plagiarisme — AI Detection Benchmark 2026-04”.

Untuk versi interaktif dari metodologi yang sama pada teks Anda sendiri, coba alat Pemeriksa AI & Plagiarisme kami — tempelkan dokumen apa pun dan lihat keputusan per kalimat, ambang batas keputusan yang sama, dan interval kepercayaan yang sama yang kami gunakan untuk angka yang diterbitkan ini.

Pertanyaan yang Sering Diajukan

Seberapa sering benchmark ini diperbarui?

Setiap kuartal. Ketika generator utama (GPT-6, Claude 5, Gemini 3) diluncurkan kami menambahkannya ke korpus uji dalam 4 minggu dan menerbitkan ulang tabel yang diperbarui. Versi historis diarsipkan dengan nama file bertanggal — edisi 2026-04 adalah rilis stabil saat ini.

Mengapa Anda tidak mempublikasikan output probabilitas per sampel?

Kami melakukannya — CSV yang dapat diunduh berisi probabilitas mentah. Yang tidak kami publikasikan adalah teks esai asli, karena korpus PAN25 dan dataset PERSUADE membawa pembatasan redistribusi. Jika Anda menginginkan teksnya, ambil dataset tersebut langsung dari sumbernya (tautan ada di dokumentasi CSV).

Bisakah saya mempercayai detektor jika AUC di bawah 1,0?

Tidak ada detektor yang mencapai AUC 1,0 pada setiap generator, jadi pertanyaannya bukan ‘apakah sempurna’ melainkan ‘apakah transparan.’ Detektor yang mempublikasikan AUC 0,95 dan memberi tahu Anda di mana ia kesulitan lebih dapat dipercaya daripada yang mempublikasikan ‘akurasi terdepan di industri’ tanpa angka. AUC kami [AUC: 0.9884] adalah performa rata-rata yang jujur; rincian per generator dan per jenis esai adalah tempat Anda harus membuat keputusan pembelian.

Apakah detektor AI Anda siap untuk publikasi akademis?

Metodologi yang mendasarinya siap — Binoculars (ICML 2024) dan ModernBERT adalah arsitektur yang telah ditinjau sejawat. Korpus fine-tuning dan ambang batas spesifik kami bersifat proprietary tetapi metodologi benchmark sepenuhnya dapat direproduksi.

Bagaimana alat online gratis dibandingkan dengan produk desktop?

Mesin yang sama, angka akurasi yang sama, logika keputusan per kalimat yang sama. Produk desktop menambahkan panjang dokumen tidak terbatas, pemindaian offline, pencocokan plagiarisme terintegrasi terhadap 4 miliar halaman web, dan pemrosesan batch seluruh folder. Untuk pemeriksaan sekali saja, alat online sudah cukup; untuk alur kerja harian, desktop adalah alat yang tepat.

Hasil benchmark berasal dari set validasi internal kami dan mungkin tidak dapat digeneralisasikan ke teks out-of-distribusi. Angka yang diterbitkan mewakili performa rata-rata pada 1.000 sampel; dokumen Anda mungkin mendapat skor yang berbeda. Gunakan hasil deteksi AI sebagai salah satu masukan di antara banyak, bukan sebagai satu-satunya bukti kepengarangan.