การตรวจจับและการสร้างล็อคอยู่ในการแข่งขันแบบแมวไล่จับหนู การออกโมเดลใหม่แต่ละครั้งปิดช่องว่างทางสถิติที่เครื่องตรวจจับพึ่งพา และการปรับปรุงการตรวจจับแต่ละครั้งได้รับการตอบโต้ด้วยเครื่องมือทำให้เป็นมนุษย์ใหม่ นี่คือสิ่งที่เกิดขึ้นจริงภายใต้ฝากระโปรง
เครื่องตรวจจับข้อความ AI ทุกตัวในที่สุดคือตัวแยกแยะทางสถิติ มันมองที่คุณลักษณะของข้อความ (ความน่าจะเป็นของโทเค็น ความงงงวย ความพุ่ง ความสม่ำเสมอของวากยสัมพันธ์) และพยายามหาสัญญาณที่แยกแยะเนื้อหาที่เครื่องสร้างจากเนื้อหาที่มนุษย์เขียน วิธี Binoculars (ICML 2024) ใช้อัตราส่วนของ cross-perplexity ระหว่างสองโมเดลภาษาเป็นสัญญาณ แนวทางการดูแล ModernBERT เรียนรู้สัญญาณโดยตรงจากตัวอย่างที่ติดป้ายกำกับ
ทั้งสองแนวทางมีช่องโหว่พื้นฐานร่วมกัน: สัญญาณที่พวกเขาพึ่งพาเป็นผลข้างเคียงของวิธีที่โมเดลสร้างข้อความ ไม่ใช่คุณลักษณะพื้นฐานของความเป็นข้อความที่เครื่องเขียน เมื่อโมเดลสร้างดีขึ้น ผลข้างเคียงเหล่านั้นก็หดตัวลง โมเดลที่ฝึกให้เขียนเหมือนมนุษย์มากขึ้นจะยากต่อการตรวจจับตามนิยาม
นี่ไม่ใช่ความล้มเหลวในการวิจัย มันเป็นข้อเท็จจริงเชิงโครงสร้างเกี่ยวกับปัญหา การตรวจจับทำงานบนเป้าหมายที่เคลื่อนที่: การออกโมเดล LLM ขนาดใหญ่ทุกครั้งทำให้ช่องว่างแคบลง เครื่องมือทำให้เป็นมนุษย์ทุกตัวฝึกอย่างชัดเจนต่อต้านผลลัพธ์ของเครื่องตรวจจับ คำถามไม่ใช่ ‘เราสามารถบรรลุการตรวจจับ 100% ตลอดไป’ ซึ่งทำไม่ได้ แต่ ‘เราสามารถนำหน้ารุ่นปัจจุบันได้นานพอที่จะเป็นประโยชน์ในทางปฏิบัติหรือไม่’
สามแนวโน้มการสร้างทำให้การตรวจจับยากขึ้น ขนาด: โมเดลขนาดใหญ่กว่าผลิตข้อความที่หลากหลายทางสถิติมากขึ้นเพราะมีการกระจายภายในที่หลากหลายกว่า โมเดลพารามิเตอร์ 70 พันล้านมีช่วงผลลัพธ์ที่เหมือนมนุษย์กว้างกว่าโมเดลพารามิเตอร์ 7 พันล้าน การปรับแต่งตามคำสั่ง: RLHF และวิธีการตามรัฐธรรมนูญสอนโมเดลให้หลีกเลี่ยงรูปแบบซ้ำซาก อ้อมค้อม และน่าเบื่อที่ทำให้ GPT-3 ตรวจจับได้ง่าย อุณหภูมิและการสุ่มตัวอย่าง: อินเทอร์เฟซแชทได้เปลี่ยนไปใช้การสุ่มตัวอย่างแบบนิวเคลียสและความสุ่ม ซึ่งทำลายรูปแบบความแปรปรวนต่ำบางรูปแบบที่เครื่องตรวจจับคลาสสิกใช้เป็นหลักยึด
GPT-5, Claude 4.5 และ Gemini 2.5 ล้วนตรวจจับได้ยากกว่ารุ่นก่อนอย่างเห็นได้ชัด การตรวจสอบภายในของเรายืนยัน: แต่ละรุ่นโมเดลทำให้ AUC ของเราในตระกูลนั้นลดลง 5–10 เปอร์เซ็นต์เมื่อเทียบกับรุ่นก่อน ดูที่เกณฑ์มาตรฐานความแม่นยำของเราสำหรับตัวเลขแยกตามโมเดล
เครื่องมือทำให้เป็นมนุษย์ — Undetectable AI, StealthWriter, Humanbeing และรายการที่เพิ่มขึ้น — คือปฏิปักษ์ที่ชัดเจน พวกมันรับผลลัพธ์ AI และถอดความ เขียนใหม่ หรือถ่ายโอนรูปแบบโดยเฉพาะเพื่อเอาชนะเครื่องตรวจจับ พวกมันฝึกต่อต้านเครื่องตรวจจับสาธารณะ (รวมถึงของเรา แม้ว่าเราจะไม่เคยแบ่งปันน้ำหนักโมเดล) และดีขึ้นอย่างเห็นได้ชัดในแต่ละการอัปเดต
เครื่องตรวจจับมีสามการตอบสนองต่อการแข่งขันอาวุธการสร้าง การรวมกลุ่ม: การรวมสัญญาณการตรวจจับหลายตัวเพื่อให้กลยุทธ์การหลบเลี่ยงเดียวใดก็ตามไม่เพียงพอ กลุ่มของเรา ได้แก่ Binoculars แบบ zero-shot กับ ModernBERT ที่ดูแล ใช้ประโยชน์จากสิ่งนี้: เครื่องมือทำให้เป็นมนุษย์ที่เอาชนะส่วนประกอบหนึ่งมักล้มเหลวต่ออีกส่วนประกอบ และคะแนนกลุ่มจับได้ทั้งสอง
การฝึกใหม่อย่างต่อเนื่อง: เราเพิ่มตัวอย่างจากการออกโมเดลหลักใหม่ทุกตัวภายใน 4 สัปดาห์หลังการเปิดตัว หาก GPT-6 ออกพรุ่งนี้ คลังข้อมูลการฝึกของเราจะรวมไว้ภายในกลางเดือนหน้า สิ่งนี้มีค่าใช้จ่ายสูง ไม่ว่าจะเป็นการคำนวณ การระบุป้ายกำกับ การตรวจสอบซ้ำ แต่มันเป็นวิธีเดียวที่จะทำให้การตรวจจับเป็นปัจจุบัน เครื่องตรวจจับที่ฝึกใหม่ทุกปีหรือน้อยกว่านั้นถือว่าเป็นสิ่งโบราณภายในหนึ่งปีอย่างแท้จริง
การฝึกแบบปฏิปักษ์: เราจงใจฝึกบนตัวอย่าง AI ที่ถูกทำให้เป็นมนุษย์และผลลัพธ์ที่ถอดความ สอนโมเดลให้มองเห็นผ่านการถ่ายโอนรูปแบบระดับพื้นผิว สิ่งนี้ยกระดับพื้นของสิ่งที่เครื่องมือทำให้เป็นมนุษย์ต้องทำเพื่อหลบเลี่ยงเรา ซึ่งในทางกลับกันทำให้การแข่งขันอาวุธช้าลง
เครื่องมือทำให้เป็นมนุษย์ทำงานอย่างไรจริงๆ? สามประเภทหลัก การถอดความ: เขียนข้อความใหม่คำต่อคำหรือประโยคต่อประโยคโดยใช้ LLM รองได้ผลต่อเครื่องตรวจจับไร้เดียงสาที่พึ่งพาลำดับโทเค็นที่แน่นอน ได้ผลพอสมควรต่อวิธีทางสถิติ การถ่ายโอนรูปแบบ: แปลงข้อความเพื่อเลียนแบบผู้เขียนหรือการลงทะเบียนเฉพาะ ได้ผลมากกว่า AUC ของเครื่องตรวจจับลดลง ~8 จุดบนข้อความ AI ที่ถ่ายโอนรูปแบบ
การแก้ไขไฮบริดมนุษย์-AI: ผู้เขียนเขียนร่าง รันผ่าน LLM เพื่อขัดเกลา จากนั้นแก้ไขเวอร์ชันที่ขัดเกลาด้วยตนเอง นี่คือกรณีที่ยากที่สุด ซึ่งเป็นงานความร่วมมือที่ถูกต้องตามกฎหมายที่ผสมสัญญาณมนุษย์และเครื่องในระดับประโยค ไม่มีเครื่องตรวจจับใด รวมถึงของเรา ที่สามารถแก้ไขสิ่งเหล่านี้ได้อย่างน่าเชื่อถือโดยไม่มีข้อมูลเมตาประวัติการแก้ไขที่เครื่องตรวจจับไม่สามารถเห็นได้
แบบจำลองทางจิตที่มีประโยชน์: เครื่องมือทำให้เป็นมนุษย์ไม่ใช่ตัวทำลายเครื่องตรวจจับ มันคือตัวคูณต้นทุนสำหรับผู้หลบเลี่ยง มันใช้เวลา บางครั้งเงิน และเพิ่มความเสี่ยงในการนำข้อผิดพลาดเข้ามาเสมอ ความพยายามโกงทางวิชาการส่วนใหญ่ไม่ใช้เครื่องมือทำให้เป็นมนุษย์เพราะแรงเสียดทานมากกว่าผลประโยชน์ ที่ที่เครื่องมือทำให้เป็นมนุษย์ครอบงำคือการผลิตเนื้อหามืออาชีพและสแปม SEO ที่ AI สร้าง ซึ่งเป็นกรณีการใช้งานที่ปริมาณงานสำคัญและการควบคุมคุณภาพอ่อนแอ
วางเอกสารใดก็ได้และดูคำตัดสินแยกตามประโยคในเวลาจริง ตรรกะกลุ่มที่อธิบายข้างต้นทำงานบนข้อความของคุณในเวลาน้อยกว่า 30 วินาที
เครื่องตรวจจับสัญญาณเดียวมีรูปแบบความล้มเหลวเดียว หากคุณพึ่งพาเพียง perplexity ผลลัพธ์ที่ถอดความด้วยความน่าจะเป็นโทเค็นที่เปลี่ยนแปลงจะเอาชนะคุณ หากคุณพึ่งพาเพียงตัวแยกแยะที่ดูแล ข้อความนอกการกระจาย (ตระกูลโมเดลใหม่ โดเมนการเขียนใหม่) จะเอาชนะคุณ การรวมกลุ่มเฉลี่ยจุดอ่อน: การถอดความที่เอาชนะ perplexity อาจยังกระตุ้นหัวที่ดูแล และในทางกลับกัน
เครื่องตรวจจับในการผลิตของเราถูกรวมกลุ่มอย่างชัดเจน: Binoculars 35% (zero-shot แบบไม่ขึ้นกับโมเดล แข็งแกร่งต่อการกระจายนอก) + ModernBERT 65% (ดูแล เฉพาะโดเมน ความแม่นยำสูงบนข้อความในการกระจาย) น้ำหนักถูกเลือกโดยเชิงประจักษ์ AUC กลุ่มถูกขยายสูงสุดเมื่อ ModernBERT ครอบงำแต่ Binoculars ยังคงอำนาจยับยั้งบนกรณีขอบเขต
ผลที่ตามมา: เครื่องมือทำให้เป็นมนุษย์ตอนนี้ต้องเอาชนะสถาปัตยกรรมการตรวจจับที่แตกต่างกันอย่างมากสองตัวพร้อมกันเพื่อหลบเลี่ยงคำตัดสินของเรา เครื่องมือทำให้เป็นมนุษย์สาธารณะมักถูกฝึกต่อต้านเครื่องตรวจจับเป้าหมายเดียว ซึ่งหมายความว่ามักประสบความสำเร็จต่อเครื่องตรวจจับเฉพาะนั้นแต่ล้มเหลวต่อกลุ่ม นี่คือข้อได้เปรียบเชิงโครงสร้างหลักของการตรวจจับในการแข่งขันอาวุธปัจจุบัน
เราควรคาดหวังอะไรในปี 2026–2027? GPT-6 และ Claude 5 น่าจะเป็นการออกช่วงกลางปี ทั้งคู่จะทำให้ช่องว่างแคบลงต่อไป โมเดลน้ำหนักเปิด — Llama 4, Qwen 4 — จะยังคงทำให้การสร้างคุณภาพสูงเป็นสินค้าโภคภัณฑ์และทำให้เครื่องมือทำให้เป็นมนุษย์ราคาถูกกว่าในการรันในระดับใหญ่ AUC การตรวจจับบนโมเดลชั้นนำน่าจะลดลงสู่ช่วง 0.80–0.90 ในปีแรกหลังการออกก่อนที่การฝึกใหม่จะแก้ไข
ในด้านการป้องกัน: สัญญาณหลายโหมด (พลวัตการพิมพ์ ประวัติการแก้ไข การตรวจสอบการประพันธ์กับคลังที่ทราบ) น่าจะมีความสำคัญมากกว่าการตรวจจับแบบข้อความบริสุทธิ์ภายใน 24 เดือน เครื่องตรวจจับข้อความเท่านั้นของเราจะยังคงเป็นตัวกรองแรกแต่จะเพิ่มขึ้นเรื่อยๆ ในฐานะสมาชิกผู้ลงคะแนนในกองหลักฐานที่สมบูรณ์กว่า
บทสรุปที่ตรงไปตรงมา: การตรวจจับข้อความบริสุทธิ์จะไม่มีวันถึง 100% มันจะคงที่ที่ประมาณ 90–95% AUC บนข้อความในการกระจายและ 75–85% บนโมเดลชั้นนำ หากเวิร์กโฟลว์ของคุณต้องการความแน่นอน คุณต้องการหลักฐานนอกเหนือจากคะแนน หากเวิร์กโฟลว์ของคุณต้องการสัญญาณแข็งแกร่งเพื่อจัดลำดับความสำคัญการตรวจสอบของมนุษย์ การตรวจจับข้อความยังคงมีประโยชน์และดีกว่าการไม่ทำอะไรอย่างวัดได้
บทความนี้อธิบายคุณสมบัติเชิงโครงสร้างของการตรวจจับข้อความ AI ตัวเลขเฉพาะอ้างถึงการตรวจสอบภายในของเราและอาจไม่ครอบคลุม เราอัปเดตหน้านี้เมื่อการวิจัยใหม่และการออกโมเดลต้องการ