บ้าน › AI ตัวไหนตรวจจับยากที่สุด? GPT vs Claude vs Gemini | เครื่องตรวจจับการลอกเลียน

AI ตัวไหนตรวจจับยากที่สุด? GPT vs Claude vs Gemini vs Llama

ข้อความ AI ไม่ได้ตรวจจับได้ง่ายเท่ากันทุกตัว นี่คือผลลัพธ์ของเกณฑ์มาตรฐานต่อเครื่องกำเนิดของเรา — ตระกูลโมเดลใดที่ตัวตรวจจับของเราจับได้ด้วยความแม่นยำเกือบสมบูรณ์ ตัวใดที่ต้องการความพยายามมากกว่า และข้อเท็จจริงนั้นบอกอะไรคุณเกี่ยวกับการเลือกเวิร์กโฟลว์การตรวจจับ

2026-04-17 · Plagiarism Detector Team

คำตอบสั้น — ลีดเดอร์บอร์ด

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

เรียงลำดับจากง่ายที่สุดไปยากที่สุดในการตรวจจับในชุดการตรวจสอบของเรา ช่วงกว้างมาก — AUC ของตระกูลโมเดลบางตัวเกิน 0.99 ในขณะที่บางตัวลดลงสู่ระดับ 0.80 ความยากในการตรวจจับสัมพันธ์กับขนาดโมเดล ความซับซ้อนของการปรับแต่งคำสั่ง และความแปรปรวนของผลลัพธ์

สำหรับการแจกแจงวิธีการต่อเครื่องกำเนิดอย่างละเอียด ดูหน้าเกณฑ์มาตรฐานความแม่นยำของเรา บทความนี้สรุปผลกระทบเชิงปฏิบัติของข้อมูลนั้นสำหรับผู้ใช้ที่เลือกว่าจะเชื่อตัวตรวจจับใดและจะใช้โมเดลใด

ตระกูล OpenAI — GPT

GPT-3.5 เป็นโมเดลสมัยใหม่ที่ตรวจจับได้ง่ายที่สุด — AUC [AUC: ?] ในชุดของเรา สิ่งที่หลงเหลือจากการสร้างรุ่นเก่า (การซ้ำ การลังเล ลงทะเบียนที่น่าเบื่อ) ยังคงชัดเจน GPT-4 ลดลงเป็น AUC [AUC: ?], GPT-4o เป็น [AUC: ?] สะท้อนการสอบเทียบที่ดีขึ้นอย่างต่อเนื่อง GPT-5.x ยากที่สุดในตระกูล — AUC [AUC: ?] — เพราะทีมปรับแต่งคำสั่งกำหนดเป้าหมายการลบสิ่งที่หลงเหลือจากการตรวจจับอย่างชัดเจน

ผลกระทบเชิงปฏิบัติ: เวิร์กโฟลว์วิชาการที่กังวลเรื่องการโกงยุค GPT-3.5 สามารถพึ่งพาการตรวจจับเพียงอย่างเดียวได้มาก เวิร์กโฟลว์ที่กังวลเรื่อง GPT-5 ต้องจับคู่การตรวจจับกับหลักฐานตามบริบท ดังที่อธิบายในคู่มือเวิร์กโฟลว์สำหรับครูของเรา

การตั้งค่าอุณหภูมิมีความสำคัญ ผลลัพธ์อุณหภูมิต่ำ (t≤0.5) ตรวจจับได้ง่ายกว่าเพราะรวมมวลความน่าจะเป็นบนคำศัพท์ที่แคบลง อินเทอร์เฟซแชทส่วนใหญ่มีค่าเริ่มต้น t≈0.7 ทำให้ข้อความอยู่ในโซนที่ตรวจจับได้ปานกลาง ผู้ใช้ที่ต่อต้านขยายอุณหภูมิหรือใช้การถอดรหัสที่หลากหลายอย่างชัดเจนเพื่อขยายช่วงและหลบเลี่ยงการตรวจจับ — ชุดของเราแก้ไขบางส่วนแต่ไม่สมบูรณ์

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. ตระกูล Claude ผลิตข้อความที่ซ้ำน้อยกว่าและมีรูปแบบที่หลากหลายกว่าอย่างสม่ำเสมอกว่าโมเดล GPT รุ่นเดียวกัน ซึ่งทำให้ตรวจจับผ่านวิธีทางสถิติได้ยากกว่า

การฝึก constitutional-AI ของ Claude กำหนดเป้าหมาย “สัญญาณบ่งชี้ของเครื่อง” ที่ตัวแยกประเภทที่มีการดูแลของเราเรียนรู้จากอย่างชัดเจน — รูปแบบการลังเล การใช้คำเชื่อมเฉพาะเกินไป โครงสร้างย่อหน้าที่คาดเดาได้ นี่เป็นความสัมพันธ์ที่ต่อต้านโดยตรง: เครื่องกำเนิดถูกฝึกต่อต้านคุณสมบัติที่ตัวตรวจจับพึ่งพา

Claude 4.5 Sonnet และ GPT-5.x ใกล้เคียงกันในด้านความยาก การกระจายคะแนนของพวกเขาทับซ้อนกับเส้นฐานมนุษย์มากที่สุดในข้อมูลการตรวจสอบของเรา หากเวิร์กโฟลว์ของคุณกำหนดเป้าหมายโมเดลใดโมเดลหนึ่ง คาดหวังการเรียกคืนที่ลดลงที่เกณฑ์เริ่มต้นและพิจารณาลดเป็น F1-optimal สำหรับการคัดกรองความไวสูง

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini แสดงประสิทธิภาพการตรวจจับที่แปรปรวนมากที่สุดในเวอร์ชันต่างๆ — รุ่นกลางบางรุ่นถดถอยชั่วคราวก่อนที่การปรับปรุงจะมาถึง

การฝึกแบบหลายโหมดของ Gemini หมายความว่าผลลัพธ์ที่มีเพียงข้อความบางครั้งมีรูปแบบที่หลงเหลือจากโดเมนคำบรรยายภาพหรืออธิบายโค้ด ตัวตรวจจับของเราตรวจจับสิ่งเหล่านี้ ซึ่งอธิบายความสามารถในการตรวจจับที่สูงกว่าเล็กน้อยของ Gemini บนพรอมต์ข้ามโดเมนมากกว่าร้อยแก้วบริสุทธิ์

สำหรับผู้ใช้ Google Workspace ที่นักศึกษาหรือพนักงานใช้ Gemini ผ่าน Docs สัญญาณการตรวจจับคล้ายคลึงกับผลลัพธ์ API ดิบ เราไม่ได้สังเกตเห็นรูปแบบการหลบเลี่ยงเฉพาะการผสานรวม Workspace ที่แตกต่างจากการใช้ Gemini API โดยตรง

ตรวจสอบตัวอย่างจากโมเดลใดก็ได้

วางผลลัพธ์จาก LLM ใดก็ได้และดูผลตัดสินต่อประโยค ตัวตรวจจับของเราถือว่าตระกูลโมเดลทั้ง 22 ตัวเป็นการตรวจสอบ ensemble เดียว

Meta และโมเดล Open-Weights

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. โมเดล Open-weights ครอบคลุมช่วงที่กว้างกว่าโมเดลแบบปิด — ตัวแปรการปรับแต่งชุมชน การปรับใช้แบบ quantised และ checkpoints ที่ชุมชนแก้ไขทั้งหมดให้ผลลัพธ์ที่แตกต่างกันอย่างละเอียด

การตรวจจับบน open-weights มีความสำคัญเชิงกลยุทธ์เพราะเครื่องมือทำให้ดูเป็นมนุษย์มักสร้างบนโมเดล open-weights — อนุพันธ์ของ Llama และ Mistral ทำงานในเครื่องด้วยต้นทุนต่ำ ซึ่งเป็นสาเหตุที่บริการ paraphrasing และ style-transfer กำหนดราคาสำหรับพวกเขา หากความกังวลของคุณคือ AI ที่ถูกทำให้ดูเป็นมนุษย์ คุณกำลังป้องกันตัวจากการสร้างตระกูล Llama ในท้ายที่สุด

DeepSeek R1 และ o3-mini (โมเดลการใช้เหตุผลของ OpenAI) ควรได้รับการกล่าวถึงแยกต่างหาก ทั้งสองสร้างข้อความที่มีสิ่งที่หลงเหลือจากห่วงโซ่การใช้เหตุผล — ตรรกะทีละขั้นตอนที่ชัดเจนที่มองเห็นได้ในผลลัพธ์ — ซึ่งตัวตรวจจับของเราได้เรียนรู้ที่จะจดจำ โมเดลการใช้เหตุผลตรวจจับได้ง่ายกว่าคู่หูแชทพื้นฐานในปัจจุบันด้วยเหตุผลนี้

ความหมายของความแตกต่างเหล่านี้สำหรับคุณ

หากคุณกำลังเลือกโมเดลสำหรับการเขียนและการตรวจจับไม่ใช่ความกังวลของคุณ Claude 4.5 Sonnet และ GPT-5 ตรวจจับได้ยากที่สุด หากคุณกำลังสร้างเวิร์กโฟลว์การตรวจจับ ให้จัดลำดับความสำคัญสำหรับโมเดลที่คุณเห็นจริงๆ: การโกงทางวิชาการส่วนใหญ่ยังคงทำงานบน GPT-4/5 ผ่านอินเทอร์เฟซฟรี การสร้างเนื้อหาส่วนใหญ่ทำงานบนตัวทำให้ดูเป็นมนุษย์ที่เป็นอนุพันธ์ของ Llama

ตัวตรวจจับตัวเดียวที่ฝึกบนตระกูลโมเดลเดียวจะทำงานได้แย่ที่สุดกับตัวอื่น แนวทาง ensemble ของเราฝึกบนตัวอย่างจากเครื่องกำเนิดทั้ง 22 ตัว ซึ่งเป็นสาเหตุที่ AUC ต่อโมเดลในกรณียาก (Claude 4.5, GPT-5) ยังคงอยู่เหนือ 0.90 ในขณะที่ตัวตรวจจับที่ฝึกบนโมเดลเดียวจะลดลงต่ำกว่า 0.80

แนวโน้มพื้นฐาน: ความยากในการตรวจจับกำลังเพิ่มขึ้นเร็วกว่าจังหวะการเปิดตัวเครื่องกำเนิด แต่ละรุ่นใหม่ตรวจจับได้ยากกว่ารุ่นก่อน การฝึกใหม่ปิดช่องว่างแต่ไม่สมบูรณ์ คาดว่า AUC พื้นฐานปี 2026–2027 จะต่ำกว่าบนโมเดล frontier และค่อนข้างคงที่บนโมเดลรุ่นเก่า

คำถามที่พบบ่อย

หากโมเดลบางตัวตรวจจับได้ยากกว่า ควรหยุดใช้ตัวตรวจจับทั้งหมดหรือไม่?

ไม่ — แม้แต่บนตระกูลโมเดลที่ยากที่สุด AUC ของเรายังอยู่เหนือ 0.85 ซึ่งเป็นสัญญาณที่แข็งแกร่ง คำถามคือคุณใช้สัญญาณอย่างไร สำหรับโมเดลที่ตรวจจับได้ยาก ให้จับคู่คะแนนกับหลักฐานประกอบ (ประวัติการแก้ไข งานในชั้นเรียน การสนทนากับนักศึกษา) สำหรับโมเดลที่ง่ายกว่า คะแนนเพียงอย่างเดียวมักเพียงพอ

ควรใช้โมเดลใดหากต้องการหลีกเลี่ยงการตรวจจับ?

เราไม่ตอบคำถามนี้โดยตรง — เราเรียกใช้เครื่องมือการตรวจจับ ไม่ใช่คู่มือการหลบเลี่ยง สิ่งที่เราจะบอก: ตรวจจับได้-vs-ตรวจจับไม่ได้ไม่ใช่แกนที่ถูกต้องสำหรับการเลือกโมเดล คุณภาพ ต้นทุน และความเหมาะสมกับวัตถุประสงค์สำคัญกว่าความยากในการตรวจจับมาก หากคุณเขียนด้วยความช่วยเหลือ AI อย่างชอบธรรม การเปิดเผยและเวิร์กโฟลว์ที่โปร่งใสสำคัญกว่าการซ่อนเครื่องมือ

ตัวแปรโมเดล open-weights มีโปรไฟล์การตรวจจับที่แตกต่างกันหรือไม่?

ใช่ และอย่างมีนัยสำคัญ ตัวแปร Llama 3.3 ที่ปรับแต่งชุมชนที่ฝึกสำหรับรูปแบบการเขียนเฉพาะอาจสร้างข้อความที่ได้คะแนนแตกต่างจาก Llama 3.3 ธรรมดา เกณฑ์มาตรฐานของเราครอบคลุม checkpoint มาตรฐาน การปรับแต่งเฉพาะอาจง่ายกว่า (หากพวกเขาทำให้การกระจายผลลัพธ์แคบลง) หรือยากกว่า (หากพวกเขาฝึกต่อต้านการตรวจจับอย่างชัดเจน)

อุณหภูมิและการสุ่มตัวอย่างส่งผลต่อความสามารถในการตรวจจับอย่างไร?

อุณหภูมิที่สูงกว่าและการสุ่มตัวอย่างที่หลากหลายมากขึ้นโดยทั่วไปช่วยลดความสามารถในการตรวจจับเพราะขยายการกระจายผลลัพธ์ การถอดรหัสแบบ greedy อุณหภูมิต่ำตรวจจับได้ง่ายที่สุด อินเทอร์เฟซแชทการผลิตส่วนใหญ่ทำงานที่ t≈0.7–1.0 พร้อม nucleus sampling ซึ่งทำให้อยู่ในระบบที่ตรวจจับได้ปานกลาง — ensemble ของเราทำงานได้คล้ายกันทั่วช่วงเริ่มต้น

GPT-6 หรือ Claude 5 จะมาถึงเมื่อใดและควรคาดหวังอะไร?

กลางปี 2026 เป็นการคาดการณ์ที่เห็นพ้องกันสำหรับทั้งสอง คาดว่า AUC การตรวจจับบนตระกูลใหม่จะลดลงสู่ช่วง 0.80–0.85 ใน 4–8 สัปดาห์แรกหลังการเปิดตัวในขณะที่เรารวบรวมตัวอย่างและฝึกใหม่ เวอร์ชันประวัติศาสตร์แนะนำการฟื้นตัวเต็มรูปแบบภายใน 8–12 สัปดาห์หากโมเดลพร้อมใช้งานอย่างแพร่หลาย นานกว่าสำหรับโมเดลที่หายากหรือจำกัดการเข้าถึง

ตัวเลข AUC ต่อโมเดลมาจากการตรวจสอบภายในของเราและอาจไม่นำไปใช้โดยทั่วไป ความยากของแต่ละโมเดลเปลี่ยนแปลงตามเวลาเนื่องจากทั้งเครื่องกำเนิดและคลังข้อมูลการฝึกของเราพัฒนา ข้อมูลปัจจุบันสะท้อนการรันเกณฑ์มาตรฐาน 2026-04