Rumah › Sejauh Mana Tepat Pengesanan AI? Penanda Aras Merentas 22 LLM | Pengesan Plagiarisme

Sejauh Mana Tepat Pengesanan AI? Penanda Aras Kami Merentas 22 LLM

Kami menerbitkan ketepatan dunia sebenar pengesan AI kami terhadap 22 model generatif, termasuk GPT-5, Claude 4, Gemini 2, dan Llama 3. Jadual setiap model, batasan yang jujur, dan set data yang boleh dimuat turun untuk para penyelidik.

2026-04-17 · Plagiarism Detector Team

Mengapa Kami Menerbitkan Angka Ketepatan Kami

Kebanyakan alat pengesanan AI meminta anda mempercayai satu skor yang tidak telus. Kami percaya anda berhak mendapat bukti. Di halaman ini kami berkongsi keputusan penuh hasil ujian pengesahan dalaman kami — setiap penjana yang kami uji, skor AUC-ROC pada setiap satu, jenis esei yang memberi kami masalah terbesar, dan ambang keputusan yang kami gunakan dalam pengeluaran.

Tahap ketelusan ini tidak lazim dalam ruang pengesanan AI. Kebanyakan pesaing — vendor pemeriksa plagiarisme, perkhidmatan pengesanan AI khusus, alat SaaS generik — menerbitkan sama ada tiada data ketepatan atau satu nombor yang dipilih secara selektif. Pola ini tidak mampan: para pendidik, penerbit, dan penyelidik memerlukan penanda aras yang boleh dihasilkan semula sebelum mereka boleh bergantung pada mana-mana alat.

Nombor kami berasal dari pecahan pengesahan 1,000 sampel daripada korpus kalibrasi yang digunakan untuk melatih pengesan ModernBERT kami. Metodologi yang sama yang memacu penanda aras ini berjalan pada setiap dokumen yang anda hantar melalui alat kami. Tiada apa yang ditahan untuk demo.

Korpus Ujian dan Metodologi

Set pengesahan mengandungi 1,000 esei yang diambil daripada korpus kalibrasi 1,200 sampel: 600 esei yang ditulis oleh manusia (daripada data tugasan bersama PAN25 dan set data esei argumentatif PERSUADE) dan 600 esei yang dijana oleh AI (dihasilkan oleh 22 model bahasa besar yang berbeza di bawah proses arahan yang terkawal). Pemisahan latihan-pengesahan 80/20 adalah tetap dan boleh diulang.

Setiap sampel dinilai secara berasingan, tanpa akses kepada metadata yang boleh mendedahkan kebenaran asas. Pengesan mengembalikan kebarangkalian dalam [0, 100] yang mewakili kemungkinan bahawa sampel itu dijana oleh AI. Kami kemudian mengira luas di bawah lengkung ciri-operasi-penerima (AUC-ROC) setiap penjana dan pada tahap jenis esei.

Semua ambang, hiperparameter latihan, dan output kebarangkalian mentah direkodkan. Set data itu sendiri tersedia untuk dimuat turun di bahagian bawah halaman ini — format CSV, satu baris setiap sampel, dengan identiti penjana, label jenis esei, skor mentah, dan keputusan binari akhir.

Keputusan Utama

Merentas keseluruhan set 1,000 sampel, pengesan ensemble kami mencapai AUC-ROC [AUC: 0.9884]. Pada ambang keputusan 50% yang kami gunakan dalam pengeluaran: 0 positif palsu pada esei manusia dalam set pengesahan, dan 60% ingatan semula pada esei AI. Pada ambang optimum F1 sebesar 26.56%, ingatan semula meningkat kepada 90% dengan kos 2% positif palsu — pertukaran yang lebih sesuai untuk aliran kerja saringan sensitiviti tinggi.

Keputusan peringkat dokumen pada alat awam kami menggunakan ambang konservatif 50%, mengutamakan sifar positif palsu berbanding ingatan semula maksimum. Guru, penerbit, dan penyelidik boleh mengatasi ini melalui gelangsar sensitiviti dalam widget apabila mereka mahukan penandaan yang lebih agresif.

Sebagai perbandingan, komponen sifar-tembak Binoculars sahaja (persediaan 2× Llama-3.1-8B) memperoleh skor AUC [AUC: 0.8509] secara bersendirian. Komponen ModernBERT yang dilaraskan halus sahaja memperoleh skor [AUC: 1.0000] pada esei dalam-taburan dan [AUC: 0.9069] pada teks luar-taburan. Ensemble berada di antara keduanya pada mana-mana paksi tunggal tetapi mengatasi kedua-duanya secara purata kerana ia membetulkan kelemahan komplementari mereka.

Pecahan Setiap Penjana

Berikut adalah jadual AUC-ROC setiap model. Model disusun daripada yang paling mudah hingga paling sukar untuk dikesan pada set pengesahan kami. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Model OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Lain-lain: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Pola utama: model yang lebih baru, lebih besar, dan dilaraskan arahan cenderung menghasilkan teks yang kelihatan lebih seperti manusia kepada mana-mana pengesan statistik, termasuk kami. Claude 4.5 Sonnet dan GPT-5.x adalah dua keluarga di mana taburan skor kami paling banyak bertindih dengan garis asas manusia. Ini sepadan dengan setiap kajian bebas yang diterbitkan pada 2025 — perlumbaan senjata adalah nyata dan saiz model adalah halangan langsung bagi pengesanan.

Di Mana Pengesan Menghadapi Kesukaran

Tidak semua teks sama tahap kebolehan pengesanannya. Kami membahagikan keputusan mengikut jenis esei — setiap kategori arahan PERSUADE — dan jurang antara yang terbaik dan yang terburuk adalah luas. [PER-TYPE TABLE]

Esei argumentatif, persuasif, dan ekspositori: domain terkuat pengesan. AUC biasanya 0.97–1.00 kerana korpus latihan memberi keutamaan kepada gaya-gaya ini. Ini adalah di mana kebanyakan kes kegunaan integriti akademik jatuh.

Penulisan kreatif dan analisis sastera: domain terlemah kami. Untuk analisis_sastera, AUC jatuh kepada 0.69 — gaya manusia dalam fiksyen menumpu dengan output LLM dan kedua-dua komponen terselia mahupun sifar-tembak kami tidak dapat membezakannya dengan boleh dipercayai. Anggap skor AI yang tinggi pada fiksyen dengan skeptisisme.

Cuba pengesan pada teks anda sendiri

Tampal mana-mana dokumen dan lihat keputusan setiap ayat dan ambang keputusan yang sama yang kami gunakan untuk nombor penanda aras ini. Percuma, tanpa pendaftaran.

Batasan dan Mod Kegagalan

Tiga kelas teks melepaskan pengesan kami lebih kerap daripada yang dicadangkan oleh set pengesahan kami. Teks AI yang dimanusiakan — output yang diproses melalui alat parafrasaan atau pemindahan gaya yang bertentangan — sering mendapat skor sebagai manusia walaupun teks asasnya dijana sepenuhnya. Teks pendek (di bawah 100 patah perkataan) sukar untuk diklasifikasikan kerana tiada isyarat statistik yang mencukupi. Penulisan Bahasa Inggeris bukan-penutur asli boleh mendapat skor sebagai AI kerana LLM dan penulis ESL berkongsi pilihan leksikal dan sintaktik tertentu.

Pengesan kami bersifat probabilistik, bukan bukti. Skor AI yang tinggi adalah isyarat untuk menyiasat lebih lanjut, bukan bukti salah laku. Kami sangat mengesyorkan menggandingkan skor dengan konteks: sejarah suntingan terkini, draf versi, sampel penulisan daripada pengarang yang sama, dan — di mana dibenarkan — perbualan susulan ringkas dengan pengarang.

Kami melatih semula secara berterusan pada output penjana terbaru, tetapi sentiasa ada kelambatan: model yang dikeluarkan minggu lalu mungkin tidak terwakili dengan baik dalam data latihan. Jika aliran kerja anda bergantung pada menangkap model terbaru, semak semula halaman penanda aras kami setiap suku tahun untuk nombor yang dikemas kini.

Muat Turun Set Data Penuh

Kami menerbitkan hasil pengesahan mentah supaya penyelidik, wartawan, dan pendidik boleh mengesahkan dakwaan kami secara bebas. CSV mengandungi: ID sampel, identiti penjana (atau 'manusia'), label jenis esei, output kebarangkalian mentah, keputusan binari pada ambang 50%, keputusan binari pada ambang 26.56%.

Muat turun: ai-detector-benchmark-2026-04.csv (dikemas kini setiap suku tahun). Penggunaan akademik tidak terhad; penerbitan semula komersial memerlukan atribusi: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

Untuk versi interaktif metodologi yang sama pada teks anda sendiri, cuba alat Penyemak AI & Plagiarisme kami — tampal mana-mana dokumen dan lihat keputusan setiap ayat, ambang keputusan yang sama, dan selang keyakinan yang sama yang kami gunakan untuk nombor yang diterbitkan ini.

Soalan Lazim

Berapa kerap penanda aras ini dikemas kini?

Setiap suku tahun. Apabila penjana utama (GPT-6, Claude 5, Gemini 3) dilancarkan, kami menambahkannya ke korpus ujian dalam masa 4 minggu dan menerbitkan semula jadual yang dikemas kini. Versi bersejarah diarkibkan dengan nama fail bertarikh — edisi 2026-04 adalah keluaran stabil semasa.

Mengapa anda tidak menerbitkan output kebarangkalian setiap sampel?

Kami lakukannya — CSV yang boleh dimuat turun mengandungi kebarangkalian mentah. Apa yang tidak kami terbitkan adalah teks esei asal, kerana korpus PAN25 dan set data PERSUADE membawa sekatan pengedaran semula. Jika anda mahukan teks, ambil set data tersebut terus dari sumber mereka (pautan dalam dokumentasi CSV).

Bolehkah saya mempercayai pengesan jika AUC berada di bawah 1.0?

Tiada pengesan mencapai AUC 1.0 pada setiap penjana, jadi soalannya bukan ‘adakah ia sempurna’ tetapi ‘adakah ia telus.’ Pengesan yang menerbitkan AUC 0.95 dan memberitahu anda di mana ia menghadapi kesukaran lebih boleh dipercayai daripada satu yang menerbitkan ‘ketepatan terkemuka dalam industri’ tanpa nombor. AUC kami [AUC: 0.9884] adalah prestasi purata yang jujur; pecahan setiap penjana dan setiap jenis esei adalah di mana anda harus membuat keputusan pembelian anda.

Adakah pengesan AI anda sedia untuk penerbitan akademik?

Metodologi asasnya — Binoculars (ICML 2024) dan ModernBERT keduanya adalah seni bina yang disemak rakan sejawat. Korpus pelarasan halus khusus kami dan ambang adalah proprietari tetapi metodologi penanda aras boleh dihasilkan semula sepenuhnya.

Bagaimana alat dalam talian percuma berbanding dengan produk desktop?

Enjin yang sama, nombor ketepatan yang sama, logik keputusan setiap ayat yang sama. Produk desktop menambah panjang dokumen tanpa had, pengimbasan luar talian, pemadanan plagiarisme bersepadu terhadap 4 bilion halaman web, dan pemprosesan kelompok keseluruhan folder. Untuk semakan sekali-sekala, alat dalam talian sudah mencukupi; untuk aliran kerja harian, desktop adalah alat yang tepat.

Keputusan penanda aras diperoleh daripada set pengesahan dalaman kami dan mungkin tidak boleh digeneralisasikan kepada teks luar-taburan. Nombor yang diterbitkan mewakili prestasi purata merentas 1,000 sampel; dokumen anda mungkin mendapat skor yang berbeza. Gunakan keputusan pengesanan AI sebagai satu input dalam banyak, bukan sebagai satu-satunya bukti pengarangan.