Rumah › AI Manakah yang Paling Sukar Dikesan? GPT vs Claude vs Gemini | Pengesan Plagiarisme

AI Manakah yang Paling Sukar Dikesan? GPT vs Claude vs Gemini vs Llama

Tidak semua teks AI sama tahap kebolehan pengesanannya. Berikut adalah keputusan penanda aras setiap penjana kami — keluarga model mana yang pengesan kami kesan dengan ketepatan hampir sempurna, yang mana ia menghadapi kesukaran, dan apa yang itu memberitahu anda tentang memilih aliran kerja pengesanan.

2026-04-17 · Plagiarism Detector Team

Jawapan Ringkas — Papan Pendahulu

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Disusun daripada yang paling mudah hingga paling sukar untuk dikesan pada set pengesahan kami. Sebarannya luas — AUC pada beberapa keluarga model melebihi 0.99 sementara yang lain jatuh ke 0.80-an. Kesukaran pengesanan berkorelasi dengan saiz model, kecanggihan pelarasan-arahan, dan varians output.

Untuk metodologi pecahan setiap penjana penuh, lihat halaman penanda aras ketepatan kami. Artikel ini meringkaskan implikasi praktikal data tersebut untuk pengguna yang memilih pengesan mana yang hendak dipercayai dan model mana yang hendak digunakan.

Keluarga OpenAI — GPT

GPT-3.5 adalah model moden yang paling mudah untuk dikesan — AUC [AUC: ?] pada set kami. Artifak penjanaan warisan (pengulangan, berhati-hati, daftar membosankan) kekal jelas. GPT-4 jatuh ke AUC [AUC: ?], GPT-4o ke [AUC: ?], mencerminkan kalibrasi yang semakin baik. GPT-5.x adalah yang paling sukar dalam keluarga — AUC [AUC: ?] — kerana pasukan pelarasan-arahan secara eksplisit menyasarkan penghapusan-artifak-pengesanan.

Implikasi praktikal: aliran kerja akademik yang bimbang tentang penipuan era GPT-3.5 boleh bergantung berat pada pengesanan sahaja. Aliran kerja yang bimbang tentang GPT-5 perlu menggandingkan pengesanan dengan bukti kontekstual, seperti yang diterangkan dalam panduan aliran kerja guru kami.

Tetapan suhu penting. Output suhu rendah (t≤0.5) lebih mudah untuk dikesan kerana ia menumpukan jisim kebarangkalian pada perbendaharaan kata yang lebih sempit. Kebanyakan antara muka sembang lalai kepada t≈0.7, meletakkan teks dalam zon yang sederhana boleh dikesan. Pengguna bersifat adversarial secara eksplisit melaraskan suhu atau menggunakan penyahkodan pelbagai untuk melebarkan julat dan mengelak pengesanan — ensemble kami sebahagiannya membetulkan ini tetapi tidak sepenuhnya.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Keluarga Claude secara konsisten menghasilkan teks yang kurang berulang dan lebih pelbagai gaya daripada model GPT generasi yang sama, menjadikannya lebih sukar untuk dikesan melalui kaedah statistik.

Latihan AI konstitusional Claude secara khusus menyasarkan “tanda-tanda mesin” yang dipelajari oleh pengklasifikasi terselia kami — pola berhati-hati, penggunaan berlebihan kata penghubung tertentu, struktur perenggan yang boleh diramalkan. Ini adalah hubungan bersifat adversarial secara langsung: penjana dilatih terhadap ciri-ciri yang diandalkan oleh pengesan.

Claude 4.5 Sonnet dan GPT-5.x hampir dalam kesukaran. Taburan skor mereka bertindih paling banyak dengan garis asas manusia dalam data pengesahan kami. Jika aliran kerja anda menyasarkan salah satu daripada model ini, jangkakan ingatan semula yang berkurangan pada ambang lalai dan pertimbangkan untuk menurunkan ke optimum F1 untuk saringan sensitiviti tinggi.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini telah menunjukkan prestasi pengesanan yang paling berubah-ubah merentas versi — beberapa keluaran pertengahan mengalami kemunduran sementara sebelum penambahbaikan diimplementasikan.

Latihan berbilang-modal Gemini bermakna output teks sahaja kadang-kadang membawa pola vestigial daripada domain kapsyen-imej atau penjelasan-kod. Pengesan kami mengesan ini, yang menjelaskan kebolehkesanan Gemini yang sedikit lebih tinggi pada arahan domain-campuran berbanding prosa tulen.

Untuk pengguna Google Workspace yang pelajar atau pekerja mereka menggunakan Gemini melalui Docs, isyarat pengesanan adalah serupa dengan output API mentah. Kami tidak memerhatikan corak pengelakan khusus-integrasi-workspace yang berbeza daripada penggunaan API Gemini langsung.

Semak sampel daripada mana-mana model

Tampal output daripada mana-mana LLM dan lihat keputusan setiap ayat. Pengesan kami menganggap kesemua 22 keluarga model sebagai semakan ensemble tunggal.

Meta dan Model Sumber-Terbuka

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Model sumber-terbuka merangkumi julat yang lebih luas daripada model tertutup — varian yang dilaraskan halus, penggunaan terkuantisasi, dan pusat pemeriksaan yang diubah suai komuniti semuanya menghasilkan output yang sedikit berbeza.

Pengesanan pada sumber-terbuka adalah penting secara strategik kerana alat pemanusiaan biasanya dibina pada model sumber-terbuka — derivatif Llama dan Mistral berjalan secara tempatan dengan kos rendah, itulah sebabnya perkhidmatan parafrasa dan pemindahan gaya menetapkan harga berdasarkan mereka. Jika kebimbangan anda adalah AI yang dimanusiakan, anda pada akhirnya mempertahankan diri terhadap penjanaan keluarga Llama.

DeepSeek R1 dan o3-mini (model penaakulan OpenAI) patut disebut secara berasingan. Kedua-duanya menghasilkan teks dengan artifak rantai-penaakulan — logik langkah demi langkah yang eksplisit kelihatan dalam output — yang pengesan kami telah belajar untuk mengecam. Model penaakulan pada masa ini lebih mudah untuk dikesan daripada rakan sejawat sembang-asas mereka atas sebab ini.

Apa Perbezaan Ini Bermakna bagi Anda

Jika anda memilih model untuk menulis dan pengesanan bukan kebimbangan anda, Claude 4.5 Sonnet dan GPT-5 adalah yang paling sukar untuk dikesan. Jika anda membina aliran kerja pengesanan, utamakan untuk model yang sebenarnya anda lihat: kebanyakan penyalahgunaan akademik masih berjalan pada GPT-4/5 melalui antara muka percuma; kebanyakan penternakan kandungan berjalan pada alat pemanusiaan derivatif Llama.

Pengesan tunggal yang dilatih pada satu keluarga model akan berprestasi paling teruk pada yang lain. Pendekatan ensemble kami melatih pada sampel daripada kesemua 22 penjana, itulah sebabnya AUC setiap model pada kes sukar (Claude 4.5, GPT-5) masih di atas 0.90 sementara mana-mana pengesan yang dilatih model-tunggal akan jatuh di bawah 0.80.

Trend asas: kesukaran pengesanan meningkat lebih cepat daripada kadar keluaran penjana. Setiap model flagship baharu lebih sukar untuk dikesan daripada yang sebelumnya, latihan semula menutup jurang tetapi tidak sepenuhnya. Jangkakan garis asas 2026–2027 menjadi AUC yang lebih rendah pada model hadapan dan kira-kira malar pada model warisan.

Soalan Lazim

Jika sesetengah model lebih sukar untuk dikesan, haruskah saya mengelak daripada menggunakan pengesan sama sekali?

Tidak — walaupun pada keluarga model yang paling sukar, AUC kami adalah di atas 0.85, yang merupakan isyarat yang kuat. Soalannya adalah bagaimana anda menggunakan isyarat itu. Untuk model yang sukar dikesan, gandingkan skor dengan bukti penyokong (sejarah suntingan, kerja dalam kelas, perbualan pelajar). Untuk model yang lebih mudah, skor sahaja sering mencukupi.

Model manakah yang harus saya gunakan jika saya ingin mengelak pengesanan?

Kami tidak menjawab soalan ini secara langsung — kami menjalankan alat pengesanan, bukan panduan pengelakan. Apa yang akan kami katakan: boleh-dikesan-berbanding-tidak-boleh-dikesan bukanlah paksi yang tepat untuk memilih model. Kualiti, kos, dan kesesuaian-untuk-tujuan jauh lebih penting daripada kesukaran pengesanan. Jika anda menulis secara sah dengan bantuan AI, pendedahan dan aliran kerja yang telus lebih penting daripada menyembunyikan alat itu.

Adakah varian model sumber-terbuka mempunyai profil pengesanan yang berbeza?

Ya, dan secara bermakna. Varian Llama 3.3 yang dilaraskan halus komuniti yang dilatih untuk gaya penulisan tertentu boleh menghasilkan teks yang mendapat skor berbeza daripada Llama 3.3 vanilla. Penanda aras kami merangkumi pusat pemeriksaan standard; pelarasan halus tersuai mungkin lebih mudah (jika ia menyempitkan taburan output) atau lebih sukar (jika ia melatih secara adversarial terhadap pengesanan) untuk dikesan.

Bagaimana suhu dan pensampelan mempengaruhi kebolehan dikesan?

Suhu yang lebih tinggi dan pensampelan yang lebih pelbagai umumnya mengurangkan kebolehan dikesan kerana mereka melebarkan taburan output. Penyahkodan tamak suhu rendah adalah paling mudah untuk dikesan. Kebanyakan antara muka sembang pengeluaran berjalan pada t≈0.7–1.0 dengan pensampelan nukleus, yang meletakkan mereka dalam rejim sederhana boleh dikesan — ensemble kami berprestasi serupa merentas julat lalai.

Bilakah GPT-6 atau Claude 5 akan tiba dan apa yang harus saya jangkakan?

Pertengahan 2026 adalah ramalan konsensus untuk kedua-duanya. Jangkakan AUC pengesanan pada keluarga baharu jatuh ke julat 0.80–0.85 untuk 4–8 minggu pertama selepas pelancaran semasa kami mengumpul sampel dan melatih semula. Versi bersejarah mencadangkan pemulihan penuh dalam masa 8–12 minggu jika model tersedia secara meluas; lebih lama untuk model yang jarang atau akses terhad.

Nombor AUC setiap model diperoleh daripada pengesahan dalaman kami dan mungkin tidak boleh digeneralisasikan. Kesukaran setiap model berubah dari masa ke masa kerana penjana dan korpus latihan kami sama-sama berkembang. Data semasa mencerminkan jalankan penanda aras 2026-04.