Trang chủ › AI nào khó phát hiện nhất? GPT vs Claude vs Gemini | Trình phát hiện đạo văn

AI nào khó phát hiện nhất? GPT vs Claude vs Gemini vs Llama

Không phải tất cả văn bản AI đều có thể phát hiện như nhau. Đây là kết quả của benchmark theo từng mô hình của chúng tôi — họ mô hình nào bộ phát hiện của chúng tôi bắt được với độ chính xác gần hoàn hảo, những họ nào nó gặp khó khăn, và điều đó cho bạn biết gì về việc chọn quy trình phát hiện.

2026-04-17 · Plagiarism Detector Team

Câu trả lời ngắn — Bảng xếp hạng

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Được sắp xếp từ dễ phát hiện nhất đến khó phát hiện nhất trong tập kiểm định của chúng tôi. Khoảng cách rất rộng — AUC trên một số họ mô hình vượt quá 0,99 trong khi các họ khác giảm xuống 0,80. Độ khó phát hiện tương quan với kích thước mô hình, mức độ tinh vi của tinh chỉnh theo hướng dẫn và phương sai đầu ra.

Để biết phương pháp luận phân tích theo từng mô hình đầy đủ, xem trang benchmark độ chính xác của chúng tôi. Bài viết này tóm tắt ý nghĩa thực tế của dữ liệu đó cho người dùng chọn bộ phát hiện nào để tin tưởng và mô hình nào để sử dụng.

Họ OpenAI — GPT

GPT-3.5 là mô hình hiện đại dễ phát hiện nhất — AUC [AUC: ?] trên tập của chúng tôi. Các tạo phẩm tạo văn bản kế thừa (lặp lại, rào đón, phong cách tẻ nhạt) vẫn hiện diện rõ ràng. GPT-4 giảm xuống AUC [AUC: ?], GPT-4o xuống [AUC: ?], phản ánh hiệu chỉnh ngày càng tốt hơn. GPT-5.x là khó nhất trong họ — AUC [AUC: ?] — vì nhóm tinh chỉnh theo hướng dẫn đã nhắm rõ ràng vào việc loại bỏ tạo phẩm phát hiện.

Ý nghĩa thực tế: các quy trình học thuật lo ngại về gian lận era GPT-3.5 có thể dựa nhiều vào phát hiện một mình. Các quy trình lo ngại về GPT-5 cần kết hợp phát hiện với bằng chứng theo ngữ cảnh, như được mô tả trong hướng dẫn quy trình giáo viên của chúng tôi.

Cài đặt nhiệt độ quan trọng. Đầu ra nhiệt độ thấp (t≤0,5) dễ phát hiện hơn vì chúng tập trung khối lượng xác suất trên từ vựng hẹp hơn. Hầu hết các giao diện chat mặc định t≈0,7, đặt văn bản trong vùng có thể phát hiện vừa phải. Người dùng đối nghịch rõ ràng tăng nhiệt độ hoặc sử dụng giải mã đa dạng để mở rộng phạm vi và né tránh phát hiện — tổ hợp của chúng tôi sửa chữa một phần điều này nhưng không hoàn toàn.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Họ Claude liên tục tạo ra văn bản ít lặp lại hơn, đa dạng phong cách hơn so với các mô hình GPT cùng thế hệ, điều này khiến nó khó phát hiện hơn qua các phương pháp thống kê.

Đào tạo AI lập hiến của Claude nhắm cụ thể vào “dấu hiệu máy” mà bộ phân loại có giám sát của chúng tôi học từ đó — các mô hình rào đón, sử dụng quá mức các từ nối cụ thể, cấu trúc đoạn có thể đoán trước. Đây là một mối quan hệ đối nghịch trực tiếp: mô hình tạo văn bản được huấn luyện chống lại các đặc điểm mà bộ phát hiện dựa vào.

Claude 4.5 Sonnet và GPT-5.x gần nhau về độ khó. Phân phối điểm của chúng chồng chéo nhiều nhất với đường cơ sở của con người trong dữ liệu kiểm định của chúng tôi. Nếu quy trình của bạn nhắm vào một trong hai mô hình này, hãy kỳ vọng giảm recall tại ngưỡng mặc định và cân nhắc giảm xuống ngưỡng tối ưu F1 để sàng lọc độ nhạy cao.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini đã cho thấy hiệu suất phát hiện biến đổi nhất qua các phiên bản — một số bản phát hành trung gian thoái lui tạm thời trước khi các cải tiến ra mắt.

Đào tạo đa phương thức của Gemini có nghĩa là đầu ra chỉ văn bản đôi khi mang các mô hình dư từ lĩnh vực chú thích hình ảnh hoặc giải thích mã. Bộ phát hiện của chúng tôi nhận ra những điều này, điều này giải thích khả năng phát hiện cao hơn đôi chút của Gemini trên các prompt đa lĩnh vực so với văn xuôi thuần túy.

Đối với người dùng Google Workspace có học sinh hoặc nhân viên sử dụng Gemini qua Docs, tín hiệu phát hiện tương tự đầu ra API thô. Chúng tôi chưa quan sát thấy các mô hình né tránh tích hợp không gian làm việc cụ thể khác biệt so với việc sử dụng API Gemini trực tiếp.

Kiểm tra mẫu từ bất kỳ mô hình nào

Dán đầu ra từ bất kỳ LLM nào và xem phán quyết theo từng câu. Bộ phát hiện của chúng tôi coi tất cả 22 họ mô hình như một lần kiểm tra tổ hợp.

Meta và các mô hình trọng số mở

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Các mô hình trọng số mở trải dài phạm vi rộng hơn các mô hình đóng — các biến thể tinh chỉnh, triển khai được lượng hóa và các điểm kiểm tra được sửa đổi bởi cộng đồng đều tạo ra đầu ra hơi khác nhau.

Phát hiện trên trọng số mở có tầm quan trọng chiến lược vì các công cụ nhân hóa thường được xây dựng trên các mô hình trọng số mở — các dẫn xuất Llama và Mistral chạy cục bộ với chi phí thấp, đó là lý do tại sao các dịch vụ diễn giải và chuyển đổi phong cách định giá chúng ra. Nếu mối lo ngại của bạn là AI được nhân hóa, bạn thực chất đang bảo vệ chống lại thế hệ họ Llama.

DeepSeek R1 và o3-mini (mô hình lý luận OpenAI) xứng đáng được đề cập riêng. Cả hai đều tạo ra văn bản với các tạo phẩm chuỗi lý luận — logic từng bước rõ ràng có thể nhìn thấy trong đầu ra — mà bộ phát hiện của chúng tôi đã học cách nhận ra. Các mô hình lý luận hiện dễ phát hiện hơn so với các mô hình chat cơ sở của chúng vì lý do này.

Những sự khác biệt này có ý nghĩa gì với bạn

Nếu bạn đang chọn một mô hình để viết và phát hiện không phải mối lo ngại của bạn, Claude 4.5 Sonnet và GPT-5 là khó phát hiện nhất. Nếu bạn đang xây dựng quy trình phát hiện, hãy ưu tiên cho các mô hình bạn thực sự thấy: hầu hết các vi phạm học thuật vẫn chạy trên GPT-4/5 qua các giao diện miễn phí; hầu hết các trang trại nội dung chạy trên các công cụ nhân hóa dẫn xuất Llama.

Một bộ phát hiện được huấn luyện trên một họ mô hình đơn sẽ hoạt động kém nhất trên các họ khác. Cách tiếp cận tổ hợp của chúng tôi huấn luyện trên mẫu từ tất cả 22 mô hình, đó là lý do tại sao AUC theo từng mô hình trên các trường hợp khó (Claude 4.5, GPT-5) vẫn trên 0,90 trong khi bất kỳ bộ phát hiện được huấn luyện một mô hình nào sẽ giảm xuống dưới 0,80.

Xu hướng cơ bản: độ khó phát hiện đang tăng nhanh hơn nhịp phát hành mô hình tạo văn bản. Mỗi flagship mới khó phát hiện hơn cái trước, tái huấn luyện thu hẹp khoảng cách nhưng không hoàn toàn. Kỳ vọng đường cơ sở 2026–2027 là AUC thấp hơn trên các mô hình tiên tiến và xấp xỉ không đổi trên các mô hình kế thừa.

Câu hỏi thường gặp

Nếu một số mô hình khó phát hiện hơn, tôi có nên tránh sử dụng bộ phát hiện không?

Không — ngay cả trên các họ mô hình khó nhất, AUC của chúng tôi trên 0,85, đây là tín hiệu mạnh. Câu hỏi là cách bạn sử dụng tín hiệu. Đối với các mô hình khó phát hiện, kết hợp điểm số với bằng chứng xác nhận (lịch sử chỉnh sửa, bài làm trong lớp, cuộc trò chuyện với học sinh). Đối với các mô hình dễ hơn, điểm số một mình thường là đủ.

Tôi nên sử dụng mô hình nào nếu muốn tránh bị phát hiện?

Chúng tôi không trả lời câu hỏi này trực tiếp — chúng tôi chạy công cụ phát hiện, không phải hướng dẫn né tránh. Những gì chúng tôi sẽ nói: có thể phát hiện-hay-không phát hiện không phải là trục đúng để chọn mô hình. Chất lượng, chi phí và phù hợp mục đích quan trọng hơn nhiều so với độ khó phát hiện. Nếu bạn đang viết hợp pháp với sự hỗ trợ AI, công bố và quy trình minh bạch quan trọng hơn việc ẩn công cụ.

Các biến thể mô hình trọng số mở có cấu hình phát hiện khác nhau không?

Có, và đáng kể. Một biến thể Llama 3.3 được tinh chỉnh theo cộng đồng được huấn luyện cho phong cách viết cụ thể có thể tạo ra văn bản chấm điểm khác với Llama 3.3 vanilla. Benchmark của chúng tôi bao gồm điểm kiểm tra chuẩn; các tinh chỉnh tùy chỉnh có thể dễ hơn (nếu chúng thu hẹp phân phối đầu ra) hoặc khó hơn (nếu chúng huấn luyện đối nghịch rõ ràng chống lại phát hiện).

Nhiệt độ và lấy mẫu ảnh hưởng đến khả năng phát hiện như thế nào?

Nhiệt độ cao hơn và lấy mẫu đa dạng hơn thường làm giảm khả năng phát hiện vì chúng mở rộng phân phối đầu ra. Giải mã tham lam nhiệt độ thấp dễ phát hiện nhất. Hầu hết các giao diện chat sản xuất chạy t≈0,7–1,0 với lấy mẫu nhân, đặt chúng vào chế độ có thể phát hiện vừa phải — tổ hợp của chúng tôi hoạt động tương tự trên phạm vi mặc định.

GPT-6 hay Claude 5 sẽ ra mắt khi nào và tôi nên kỳ vọng gì?

Giữa năm 2026 là dự báo đồng thuận cho cả hai. Kỳ vọng AUC phát hiện trên các họ mới giảm xuống khoảng 0,80–0,85 trong 4–8 tuần đầu tiên sau khi ra mắt trong khi chúng tôi thu thập mẫu và tái huấn luyện. Các phiên bản lịch sử gợi ý phục hồi đầy đủ trong 8–12 tuần nếu mô hình có sẵn rộng rãi; lâu hơn cho các mô hình hiếm hoặc có quyền truy cập hạn chế.

Số liệu AUC theo từng mô hình được lấy từ kiểm định nội bộ của chúng tôi và có thể không khái quát hóa được. Độ khó của mỗi mô hình thay đổi theo thời gian khi cả mô hình tạo văn bản và kho dữ liệu huấn luyện của chúng tôi phát triển. Dữ liệu hiện tại phản ánh lần chạy benchmark 2026-04.