Rumah › Mengapa Deteksi Teks AI Sulit: Perlombaan Senjata Serangan-Pertahanan | Detektor Plagiarisme

Mengapa Deteksi Teks AI Sulit: Di Balik Perlombaan Senjata

Deteksi dan generasi terkunci dalam perlombaan kucing dan tikus. Setiap rilis model baru menutup kesenjangan statistik yang diandalkan detektor — dan setiap peningkatan deteksi dijawab oleh alat humanisasi baru. Inilah yang sebenarnya terjadi di balik layar.

2026-04-17 · Plagiarism Detector Team

Dasar Statistik Deteksi

Setiap detektor teks AI pada dasarnya adalah diskriminator statistik — ia melihat fitur-fitur teks (probabilitas token, perplexity, burstiness, regularitas sintaksis) dan mencoba menemukan sinyal yang membedakan konten yang dihasilkan mesin dari konten yang ditulis manusia. Metode Binoculars (ICML 2024) menggunakan rasio cross-perplexity antara dua model bahasa sebagai sinyalnya. Pendekatan supervisi ModernBERT mempelajari sinyal langsung dari contoh berlabel.

Kedua pendekatan berbagi kerentanan mendasar: sinyal yang mereka andalkan adalah efek samping dari cara model menghasilkan teks, bukan fitur fundamental dari tulisan mesin. Seiring generator membaik, efek samping tersebut mengecil. Model yang dilatih untuk menulis lebih seperti manusia akan — secara definisi — lebih sulit dideteksi.

Ini bukan kegagalan penelitian. Ini adalah fakta struktural tentang masalah tersebut. Deteksi beroperasi pada target yang bergerak: setiap rilis LLM utama mempersempit kesenjangan, setiap alat humanisasi secara eksplisit melatih terhadap output detektor. Pertanyaannya bukan ‘bisakah kita mencapai 100% deteksi selamanya’ — itu tidak bisa dilakukan — tetapi ‘bisakah kita tetap di depan generasi saat ini cukup lama untuk berguna dalam praktik.’

Apa yang Dilakukan Pedang — Generasi Membaik

Tiga tren generasi membuat deteksi semakin sulit. Ukuran: model yang lebih besar menghasilkan teks yang lebih beragam secara statistik karena mereka memiliki distribusi internal yang lebih kaya. Model dengan 70 miliar parameter memiliki rentang output seperti manusia yang lebih luas daripada model 7 miliar parameter. Penyesuaian instruksi: RLHF dan metode konstitusional mengajarkan model untuk menghindari pola berulang, hedging, dan membosankan yang membuat GPT-3 mudah dikenali. Suhu dan sampling: antarmuka obrolan telah beralih ke nucleus sampling dan keacakan, yang menghancurkan beberapa pola varians rendah yang digunakan detektor klasik sebagai jangkar.

GPT-5, Claude 4.5, dan Gemini 2.5 semuanya jauh lebih sulit dideteksi daripada pendahulunya. Validasi internal kami mengonfirmasi ini: setiap generasi model menurunkan AUC kami pada keluarga tersebut sebesar 5–10 poin persentase dibandingkan generasi sebelumnya. Lihat benchmark akurasi kami untuk angka per model.

Alat humanisasi — Undetectable AI, StealthWriter, Humanbeing, dan daftar yang terus berkembang — adalah musuh eksplisit. Mereka mengambil output AI dan memparafrase, menulis ulang, atau mentransfer gaya secara khusus untuk mengalahkan detektor. Mereka dilatih terhadap detektor publik (termasuk milik kami, meskipun kami tidak pernah membagikan bobot model kami) dan mereka semakin baik dengan setiap pembaruan.

Apa yang Dilakukan Perisai — Deteksi Merespons

Detektor memiliki tiga respons terhadap perlombaan senjata generasi. Ensembling: menggabungkan beberapa sinyal deteksi sehingga taktik pengelakan tunggal mana pun tidak cukup. Ensemble kami dari Binoculars zero-shot dengan ModernBERT yang disupervisi mengeksploitasi ini: humanisasi yang mengalahkan satu komponen sering gagal terhadap yang lain, dan skor ensemble menangkap keduanya.

Pelatihan ulang berkelanjutan: kami menambahkan sampel dari setiap rilis generator utama baru dalam 4 minggu setelah peluncuran. Jika GPT-6 diluncurkan besok, korpus pelatihan kami akan mencakupnya pada pertengahan bulan depan. Ini mahal — komputasi, anotasi, validasi ulang — tetapi itu adalah satu-satunya cara untuk menjaga deteksi tetap terkini. Detektor yang melatih ulang tahunan atau lebih jarang secara efektif menjadi barang museum dalam setahun.

Pelatihan adversarial: kami sengaja melatih pada sampel AI yang dimanusiakan dan output yang diparafrase, mengajarkan model untuk melihat melampaui transfer gaya permukaan. Ini meningkatkan batas bawah yang harus dilakukan humanisasi untuk mengelak kami, yang pada gilirannya memperlambat perlombaan senjata.

Di Dalam Lanskap Pengelakan

Bagaimana cara kerja alat humanisasi sebenarnya? Tiga kategori luas. Parafrasa: tulis ulang teks kata per kata atau kalimat per kalimat menggunakan LLM sekunder. Efektif terhadap detektor naif yang mengandalkan urutan token yang tepat; cukup efektif terhadap metode statistik. Transfer gaya: ubah teks untuk meniru penulis atau register tertentu. Lebih efektif — AUC detektor kami turun ~8 poin pada teks AI yang ditransfer gayanya.

Pengeditan hybrid manusia-AI: penulis membuat draf, menjalankannya melalui LLM untuk dipoles, lalu secara manual mengedit versi yang dipoles. Ini adalah kasus tersulit — pekerjaan kolaboratif yang sah yang mencampurkan sinyal manusia dan mesin pada tingkat kalimat. Tidak ada detektor, termasuk milik kami, yang dapat menyelesaikan ini secara andal tanpa metadata riwayat pengeditan yang tidak dapat dilihat detektor.

Model mental yang berguna: humanisasi bukanlah pemecah detektor, melainkan pengganda biaya bagi yang mengelak. Ini membutuhkan waktu, terkadang uang, dan selalu menambah risiko memperkenalkan kesalahan. Sebagian besar upaya kecurangan akademis tidak menggunakan humanisasi karena gesekannya melebihi manfaatnya. Di mana humanisasi mendominasi adalah pertanian konten profesional dan spam SEO yang dihasilkan AI — kasus penggunaan di mana throughput penting dan kontrol kualitas lemah.

Lihat bagaimana detektor kami memberi skor sekarang

Tempelkan dokumen apa pun dan lihat keputusan per kalimat secara real time. Logika ensemble yang dijelaskan di atas berjalan pada teks Anda dalam waktu kurang dari 30 detik.

Mengapa Ensembling Lebih Penting dari Metrik Tunggal Apa Pun

Detektor sinyal tunggal memiliki mode kegagalan tunggal. Jika Anda hanya mengandalkan perplexity, output yang diparafrase dengan probabilitas token yang diubah mengalahkan Anda. Jika Anda hanya mengandalkan pengklasifikasi yang disupervisi, teks out-of-distribusi (keluarga model baru, domain penulisan baru) mengalahkan Anda. Ensemble merata-ratakan kelemahan: parafrase yang mengalahkan perplexity mungkin masih memicu kepala supervisi, dan sebaliknya.

Detektor produksi kami secara eksplisit diensemble: 35% Binoculars (zero-shot, model-agnostik, robust terhadap out-of-distribusi) + 65% ModernBERT (disupervisi, spesifik domain, presisi tinggi pada teks in-distribusi). Bobot dipilih secara empiris — AUC ensemble dimaksimalkan ketika ModernBERT mendominasi tetapi Binoculars mempertahankan hak veto pada kasus tepi.

Konsekuensinya: alat humanisasi sekarang harus mengalahkan dua arsitektur deteksi yang sangat berbeda secara bersamaan untuk menghindari keputusan kami. Humanisasi publik biasanya dilatih terhadap satu detektor target, yang berarti mereka sering berhasil terhadap detektor spesifik itu tetapi gagal terhadap ensemble. Inilah keunggulan struktural utama deteksi dalam perlombaan senjata saat ini.

Ekspektasi Realistis untuk 12 Bulan Ke Depan

Apa yang harus kita harapkan sepanjang 2026–2027? GPT-6 dan Claude 5 kemungkinan adalah rilis pertengahan tahun; keduanya akan semakin mempersempit kesenjangan. Model bobot terbuka — Llama 4, Qwen 4 — akan terus mengkomoditisasi generasi berkualitas tinggi dan membuat humanisasi lebih murah untuk dijalankan dalam skala besar. AUC deteksi pada model frontier kemungkinan akan turun ke kisaran 0,80–0,90 untuk tahun pertama setelah rilis sebelum pelatihan ulang mengoreksinya.

Dari sisi pertahanan: sinyal multi-modal (dinamika pengetikan, riwayat pengeditan, verifikasi kepengarangan terhadap korpus yang diketahui) kemungkinan akan lebih penting daripada deteksi berbasis teks murni dalam 24 bulan. Detektor hanya teks kami akan tetap menjadi filter pertama tetapi akan semakin menjadi anggota pemilih dalam tumpukan bukti yang lebih kaya.

Kesimpulan jujur: deteksi berbasis teks murni tidak akan pernah mencapai 100%. Ini akan mencapai plateau di sekitar 90–95% AUC pada teks in-distribusi dan 75–85% pada model frontier. Jika alur kerja Anda membutuhkan kepastian, Anda memerlukan bukti di luar skor. Jika alur kerja Anda membutuhkan sinyal kuat untuk memprioritaskan tinjauan manusia, deteksi berbasis teks tetap berguna dan secara terukur lebih baik daripada tidak melakukan apa pun.

Pertanyaan yang Sering Diajukan

Jika deteksi AI tidak akan pernah sempurna, apakah masih layak digunakan?

Ya — pertanyaannya bukan ‘apakah sempurna’ tetapi ‘apakah lebih baik daripada tidak menyaring sama sekali.’ Detektor AUC 90% pada beban kerja Anda adalah peningkatan signal-to-noise yang besar. Orang-orang yang paling vokal tentang keterbatasan detektor sering kali adalah mereka yang mencoba mengalahkannya; itu bukan argumen untuk meninggalkan alat.

Bisakah watermarking menggantikan deteksi statistik?

Watermarking menyematkan tanda tangan statistik tersembunyi dalam teks yang dihasilkan yang dapat diambil kemudian oleh detektor. Ini bekerja ketika generator bekerja sama (OpenAI telah menerapkannya secara eksperimental) tetapi gagal sepenuhnya pada model bobot terbuka, yang menghasilkan tanpa watermark. Deteksi statistik akan tetap diperlukan untuk masa mendatang yang dapat diperkirakan karena ia bekerja bahkan ketika generator menolak untuk bekerja sama.

Apa hal yang paling sulit dideteksi saat ini?

Pengeditan hybrid manusia-AI — fragmen teks yang draf-nya dibuat AI dan dipoles manusia pada tingkat kalimat. Tidak ada detektor saat ini yang dapat menyelesaikan ini secara andal tanpa akses ke metadata riwayat pengeditan. Jika itu kasus penggunaan Anda, deteksi berbasis teks adalah alat yang salah — Anda memerlukan instrumentasi alur kerja.

Seberapa sering generator baru benar-benar mengurangi AUC Anda?

Setiap rilis besar, kira-kira setiap 3–6 bulan, mengurangi AUC pada keluarga tersebut sebesar 5–10 poin persentase hingga kami melatih ulang. Pelatihan ulang membutuhkan sekitar 4 minggu setelah kami memiliki sampel yang cukup. Hasil praktisnya: selalu ada jendela 2–8 minggu setelah peluncuran baru di mana AUC kami pada keluarga tersebut lebih rendah dari rata-rata. Kami mengungkapkan kesenjangan ini di halaman benchmark.

Apakah ensembling membantu melawan humanisasi?

Secara substansial — itulah pertahanan struktural utama yang kami miliki. Humanisasi melatih terhadap detektor target. Ketika target tersebut adalah ensemble dari dua detektor yang berbeda secara arsitektur, humanisasi harus mengalahkan keduanya secara bersamaan, yang secara berarti lebih sulit daripada mengalahkan salah satunya saja. Inilah mengapa kami menggunakan ensemble dalam produksi meskipun satu komponen akan lebih murah untuk dijalankan.

Artikel ini menggambarkan properti struktural deteksi teks AI. Angka spesifik merujuk pada validasi internal kami dan mungkin tidak dapat digeneralisasikan. Kami memperbarui halaman ini seiring penelitian baru dan rilis generator yang mengharuskannya.