ข้อความ AI ไม่ได้ตรวจจับได้ง่ายเท่ากันทุกตัว นี่คือผลลัพธ์ของเกณฑ์มาตรฐานต่อเครื่องกำเนิดของเรา — ตระกูลโมเดลใดที่ตัวตรวจจับของเราจับได้ด้วยความแม่นยำเกือบสมบูรณ์ ตัวใดที่ต้องการความพยายามมากกว่า และข้อเท็จจริงนั้นบอกอะไรคุณเกี่ยวกับการเลือกเวิร์กโฟลว์การตรวจจับ
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
เรียงลำดับจากง่ายที่สุดไปยากที่สุดในการตรวจจับในชุดการตรวจสอบของเรา ช่วงกว้างมาก — AUC ของตระกูลโมเดลบางตัวเกิน 0.99 ในขณะที่บางตัวลดลงสู่ระดับ 0.80 ความยากในการตรวจจับสัมพันธ์กับขนาดโมเดล ความซับซ้อนของการปรับแต่งคำสั่ง และความแปรปรวนของผลลัพธ์
สำหรับการแจกแจงวิธีการต่อเครื่องกำเนิดอย่างละเอียด ดูหน้าเกณฑ์มาตรฐานความแม่นยำของเรา บทความนี้สรุปผลกระทบเชิงปฏิบัติของข้อมูลนั้นสำหรับผู้ใช้ที่เลือกว่าจะเชื่อตัวตรวจจับใดและจะใช้โมเดลใด
GPT-3.5 เป็นโมเดลสมัยใหม่ที่ตรวจจับได้ง่ายที่สุด — AUC [AUC: ?] ในชุดของเรา สิ่งที่หลงเหลือจากการสร้างรุ่นเก่า (การซ้ำ การลังเล ลงทะเบียนที่น่าเบื่อ) ยังคงชัดเจน GPT-4 ลดลงเป็น AUC [AUC: ?], GPT-4o เป็น [AUC: ?] สะท้อนการสอบเทียบที่ดีขึ้นอย่างต่อเนื่อง GPT-5.x ยากที่สุดในตระกูล — AUC [AUC: ?] — เพราะทีมปรับแต่งคำสั่งกำหนดเป้าหมายการลบสิ่งที่หลงเหลือจากการตรวจจับอย่างชัดเจน
ผลกระทบเชิงปฏิบัติ: เวิร์กโฟลว์วิชาการที่กังวลเรื่องการโกงยุค GPT-3.5 สามารถพึ่งพาการตรวจจับเพียงอย่างเดียวได้มาก เวิร์กโฟลว์ที่กังวลเรื่อง GPT-5 ต้องจับคู่การตรวจจับกับหลักฐานตามบริบท ดังที่อธิบายในคู่มือเวิร์กโฟลว์สำหรับครูของเรา
การตั้งค่าอุณหภูมิมีความสำคัญ ผลลัพธ์อุณหภูมิต่ำ (t≤0.5) ตรวจจับได้ง่ายกว่าเพราะรวมมวลความน่าจะเป็นบนคำศัพท์ที่แคบลง อินเทอร์เฟซแชทส่วนใหญ่มีค่าเริ่มต้น t≈0.7 ทำให้ข้อความอยู่ในโซนที่ตรวจจับได้ปานกลาง ผู้ใช้ที่ต่อต้านขยายอุณหภูมิหรือใช้การถอดรหัสที่หลากหลายอย่างชัดเจนเพื่อขยายช่วงและหลบเลี่ยงการตรวจจับ — ชุดของเราแก้ไขบางส่วนแต่ไม่สมบูรณ์
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. ตระกูล Claude ผลิตข้อความที่ซ้ำน้อยกว่าและมีรูปแบบที่หลากหลายกว่าอย่างสม่ำเสมอกว่าโมเดล GPT รุ่นเดียวกัน ซึ่งทำให้ตรวจจับผ่านวิธีทางสถิติได้ยากกว่า
การฝึก constitutional-AI ของ Claude กำหนดเป้าหมาย “สัญญาณบ่งชี้ของเครื่อง” ที่ตัวแยกประเภทที่มีการดูแลของเราเรียนรู้จากอย่างชัดเจน — รูปแบบการลังเล การใช้คำเชื่อมเฉพาะเกินไป โครงสร้างย่อหน้าที่คาดเดาได้ นี่เป็นความสัมพันธ์ที่ต่อต้านโดยตรง: เครื่องกำเนิดถูกฝึกต่อต้านคุณสมบัติที่ตัวตรวจจับพึ่งพา
Claude 4.5 Sonnet และ GPT-5.x ใกล้เคียงกันในด้านความยาก การกระจายคะแนนของพวกเขาทับซ้อนกับเส้นฐานมนุษย์มากที่สุดในข้อมูลการตรวจสอบของเรา หากเวิร์กโฟลว์ของคุณกำหนดเป้าหมายโมเดลใดโมเดลหนึ่ง คาดหวังการเรียกคืนที่ลดลงที่เกณฑ์เริ่มต้นและพิจารณาลดเป็น F1-optimal สำหรับการคัดกรองความไวสูง
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini แสดงประสิทธิภาพการตรวจจับที่แปรปรวนมากที่สุดในเวอร์ชันต่างๆ — รุ่นกลางบางรุ่นถดถอยชั่วคราวก่อนที่การปรับปรุงจะมาถึง
การฝึกแบบหลายโหมดของ Gemini หมายความว่าผลลัพธ์ที่มีเพียงข้อความบางครั้งมีรูปแบบที่หลงเหลือจากโดเมนคำบรรยายภาพหรืออธิบายโค้ด ตัวตรวจจับของเราตรวจจับสิ่งเหล่านี้ ซึ่งอธิบายความสามารถในการตรวจจับที่สูงกว่าเล็กน้อยของ Gemini บนพรอมต์ข้ามโดเมนมากกว่าร้อยแก้วบริสุทธิ์
สำหรับผู้ใช้ Google Workspace ที่นักศึกษาหรือพนักงานใช้ Gemini ผ่าน Docs สัญญาณการตรวจจับคล้ายคลึงกับผลลัพธ์ API ดิบ เราไม่ได้สังเกตเห็นรูปแบบการหลบเลี่ยงเฉพาะการผสานรวม Workspace ที่แตกต่างจากการใช้ Gemini API โดยตรง
วางผลลัพธ์จาก LLM ใดก็ได้และดูผลตัดสินต่อประโยค ตัวตรวจจับของเราถือว่าตระกูลโมเดลทั้ง 22 ตัวเป็นการตรวจสอบ ensemble เดียว
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. โมเดล Open-weights ครอบคลุมช่วงที่กว้างกว่าโมเดลแบบปิด — ตัวแปรการปรับแต่งชุมชน การปรับใช้แบบ quantised และ checkpoints ที่ชุมชนแก้ไขทั้งหมดให้ผลลัพธ์ที่แตกต่างกันอย่างละเอียด
การตรวจจับบน open-weights มีความสำคัญเชิงกลยุทธ์เพราะเครื่องมือทำให้ดูเป็นมนุษย์มักสร้างบนโมเดล open-weights — อนุพันธ์ของ Llama และ Mistral ทำงานในเครื่องด้วยต้นทุนต่ำ ซึ่งเป็นสาเหตุที่บริการ paraphrasing และ style-transfer กำหนดราคาสำหรับพวกเขา หากความกังวลของคุณคือ AI ที่ถูกทำให้ดูเป็นมนุษย์ คุณกำลังป้องกันตัวจากการสร้างตระกูล Llama ในท้ายที่สุด
DeepSeek R1 และ o3-mini (โมเดลการใช้เหตุผลของ OpenAI) ควรได้รับการกล่าวถึงแยกต่างหาก ทั้งสองสร้างข้อความที่มีสิ่งที่หลงเหลือจากห่วงโซ่การใช้เหตุผล — ตรรกะทีละขั้นตอนที่ชัดเจนที่มองเห็นได้ในผลลัพธ์ — ซึ่งตัวตรวจจับของเราได้เรียนรู้ที่จะจดจำ โมเดลการใช้เหตุผลตรวจจับได้ง่ายกว่าคู่หูแชทพื้นฐานในปัจจุบันด้วยเหตุผลนี้
หากคุณกำลังเลือกโมเดลสำหรับการเขียนและการตรวจจับไม่ใช่ความกังวลของคุณ Claude 4.5 Sonnet และ GPT-5 ตรวจจับได้ยากที่สุด หากคุณกำลังสร้างเวิร์กโฟลว์การตรวจจับ ให้จัดลำดับความสำคัญสำหรับโมเดลที่คุณเห็นจริงๆ: การโกงทางวิชาการส่วนใหญ่ยังคงทำงานบน GPT-4/5 ผ่านอินเทอร์เฟซฟรี การสร้างเนื้อหาส่วนใหญ่ทำงานบนตัวทำให้ดูเป็นมนุษย์ที่เป็นอนุพันธ์ของ Llama
ตัวตรวจจับตัวเดียวที่ฝึกบนตระกูลโมเดลเดียวจะทำงานได้แย่ที่สุดกับตัวอื่น แนวทาง ensemble ของเราฝึกบนตัวอย่างจากเครื่องกำเนิดทั้ง 22 ตัว ซึ่งเป็นสาเหตุที่ AUC ต่อโมเดลในกรณียาก (Claude 4.5, GPT-5) ยังคงอยู่เหนือ 0.90 ในขณะที่ตัวตรวจจับที่ฝึกบนโมเดลเดียวจะลดลงต่ำกว่า 0.80
แนวโน้มพื้นฐาน: ความยากในการตรวจจับกำลังเพิ่มขึ้นเร็วกว่าจังหวะการเปิดตัวเครื่องกำเนิด แต่ละรุ่นใหม่ตรวจจับได้ยากกว่ารุ่นก่อน การฝึกใหม่ปิดช่องว่างแต่ไม่สมบูรณ์ คาดว่า AUC พื้นฐานปี 2026–2027 จะต่ำกว่าบนโมเดล frontier และค่อนข้างคงที่บนโมเดลรุ่นเก่า
ตัวเลข AUC ต่อโมเดลมาจากการตรวจสอบภายในของเราและอาจไม่นำไปใช้โดยทั่วไป ความยากของแต่ละโมเดลเปลี่ยนแปลงตามเวลาเนื่องจากทั้งเครื่องกำเนิดและคลังข้อมูลการฝึกของเราพัฒนา ข้อมูลปัจจุบันสะท้อนการรันเกณฑ์มาตรฐาน 2026-04