Tidak semua teks AI sama tahap kebolehan pengesanannya. Berikut adalah keputusan penanda aras setiap penjana kami — keluarga model mana yang pengesan kami kesan dengan ketepatan hampir sempurna, yang mana ia menghadapi kesukaran, dan apa yang itu memberitahu anda tentang memilih aliran kerja pengesanan.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Disusun daripada yang paling mudah hingga paling sukar untuk dikesan pada set pengesahan kami. Sebarannya luas — AUC pada beberapa keluarga model melebihi 0.99 sementara yang lain jatuh ke 0.80-an. Kesukaran pengesanan berkorelasi dengan saiz model, kecanggihan pelarasan-arahan, dan varians output.
Untuk metodologi pecahan setiap penjana penuh, lihat halaman penanda aras ketepatan kami. Artikel ini meringkaskan implikasi praktikal data tersebut untuk pengguna yang memilih pengesan mana yang hendak dipercayai dan model mana yang hendak digunakan.
GPT-3.5 adalah model moden yang paling mudah untuk dikesan — AUC [AUC: ?] pada set kami. Artifak penjanaan warisan (pengulangan, berhati-hati, daftar membosankan) kekal jelas. GPT-4 jatuh ke AUC [AUC: ?], GPT-4o ke [AUC: ?], mencerminkan kalibrasi yang semakin baik. GPT-5.x adalah yang paling sukar dalam keluarga — AUC [AUC: ?] — kerana pasukan pelarasan-arahan secara eksplisit menyasarkan penghapusan-artifak-pengesanan.
Implikasi praktikal: aliran kerja akademik yang bimbang tentang penipuan era GPT-3.5 boleh bergantung berat pada pengesanan sahaja. Aliran kerja yang bimbang tentang GPT-5 perlu menggandingkan pengesanan dengan bukti kontekstual, seperti yang diterangkan dalam panduan aliran kerja guru kami.
Tetapan suhu penting. Output suhu rendah (t≤0.5) lebih mudah untuk dikesan kerana ia menumpukan jisim kebarangkalian pada perbendaharaan kata yang lebih sempit. Kebanyakan antara muka sembang lalai kepada t≈0.7, meletakkan teks dalam zon yang sederhana boleh dikesan. Pengguna bersifat adversarial secara eksplisit melaraskan suhu atau menggunakan penyahkodan pelbagai untuk melebarkan julat dan mengelak pengesanan — ensemble kami sebahagiannya membetulkan ini tetapi tidak sepenuhnya.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Keluarga Claude secara konsisten menghasilkan teks yang kurang berulang dan lebih pelbagai gaya daripada model GPT generasi yang sama, menjadikannya lebih sukar untuk dikesan melalui kaedah statistik.
Latihan AI konstitusional Claude secara khusus menyasarkan “tanda-tanda mesin” yang dipelajari oleh pengklasifikasi terselia kami — pola berhati-hati, penggunaan berlebihan kata penghubung tertentu, struktur perenggan yang boleh diramalkan. Ini adalah hubungan bersifat adversarial secara langsung: penjana dilatih terhadap ciri-ciri yang diandalkan oleh pengesan.
Claude 4.5 Sonnet dan GPT-5.x hampir dalam kesukaran. Taburan skor mereka bertindih paling banyak dengan garis asas manusia dalam data pengesahan kami. Jika aliran kerja anda menyasarkan salah satu daripada model ini, jangkakan ingatan semula yang berkurangan pada ambang lalai dan pertimbangkan untuk menurunkan ke optimum F1 untuk saringan sensitiviti tinggi.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini telah menunjukkan prestasi pengesanan yang paling berubah-ubah merentas versi — beberapa keluaran pertengahan mengalami kemunduran sementara sebelum penambahbaikan diimplementasikan.
Latihan berbilang-modal Gemini bermakna output teks sahaja kadang-kadang membawa pola vestigial daripada domain kapsyen-imej atau penjelasan-kod. Pengesan kami mengesan ini, yang menjelaskan kebolehkesanan Gemini yang sedikit lebih tinggi pada arahan domain-campuran berbanding prosa tulen.
Untuk pengguna Google Workspace yang pelajar atau pekerja mereka menggunakan Gemini melalui Docs, isyarat pengesanan adalah serupa dengan output API mentah. Kami tidak memerhatikan corak pengelakan khusus-integrasi-workspace yang berbeza daripada penggunaan API Gemini langsung.
Tampal output daripada mana-mana LLM dan lihat keputusan setiap ayat. Pengesan kami menganggap kesemua 22 keluarga model sebagai semakan ensemble tunggal.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Model sumber-terbuka merangkumi julat yang lebih luas daripada model tertutup — varian yang dilaraskan halus, penggunaan terkuantisasi, dan pusat pemeriksaan yang diubah suai komuniti semuanya menghasilkan output yang sedikit berbeza.
Pengesanan pada sumber-terbuka adalah penting secara strategik kerana alat pemanusiaan biasanya dibina pada model sumber-terbuka — derivatif Llama dan Mistral berjalan secara tempatan dengan kos rendah, itulah sebabnya perkhidmatan parafrasa dan pemindahan gaya menetapkan harga berdasarkan mereka. Jika kebimbangan anda adalah AI yang dimanusiakan, anda pada akhirnya mempertahankan diri terhadap penjanaan keluarga Llama.
DeepSeek R1 dan o3-mini (model penaakulan OpenAI) patut disebut secara berasingan. Kedua-duanya menghasilkan teks dengan artifak rantai-penaakulan — logik langkah demi langkah yang eksplisit kelihatan dalam output — yang pengesan kami telah belajar untuk mengecam. Model penaakulan pada masa ini lebih mudah untuk dikesan daripada rakan sejawat sembang-asas mereka atas sebab ini.
Jika anda memilih model untuk menulis dan pengesanan bukan kebimbangan anda, Claude 4.5 Sonnet dan GPT-5 adalah yang paling sukar untuk dikesan. Jika anda membina aliran kerja pengesanan, utamakan untuk model yang sebenarnya anda lihat: kebanyakan penyalahgunaan akademik masih berjalan pada GPT-4/5 melalui antara muka percuma; kebanyakan penternakan kandungan berjalan pada alat pemanusiaan derivatif Llama.
Pengesan tunggal yang dilatih pada satu keluarga model akan berprestasi paling teruk pada yang lain. Pendekatan ensemble kami melatih pada sampel daripada kesemua 22 penjana, itulah sebabnya AUC setiap model pada kes sukar (Claude 4.5, GPT-5) masih di atas 0.90 sementara mana-mana pengesan yang dilatih model-tunggal akan jatuh di bawah 0.80.
Trend asas: kesukaran pengesanan meningkat lebih cepat daripada kadar keluaran penjana. Setiap model flagship baharu lebih sukar untuk dikesan daripada yang sebelumnya, latihan semula menutup jurang tetapi tidak sepenuhnya. Jangkakan garis asas 2026–2027 menjadi AUC yang lebih rendah pada model hadapan dan kira-kira malar pada model warisan.
Nombor AUC setiap model diperoleh daripada pengesahan dalaman kami dan mungkin tidak boleh digeneralisasikan. Kesukaran setiap model berubah dari masa ke masa kerana penjana dan korpus latihan kami sama-sama berkembang. Data semasa mencerminkan jalankan penanda aras 2026-04.