Trang chủ › Độ chính xác của phát hiện AI là bao nhiêu? Benchmark trên 22 LLM | Trình phát hiện đạo văn

Độ chính xác của phát hiện AI là bao nhiêu? Benchmark của chúng tôi trên 22 LLM

Chúng tôi công bố độ chính xác thực tế của bộ phát hiện AI đối với 22 mô hình tạo văn bản, bao gồm GPT-5, Claude 4, Gemini 2 và Llama 3. Bảng theo từng mô hình, hạn chế trung thực và tập dữ liệu có thể tải xuống cho các nhà nghiên cứu.

2026-04-17 · Plagiarism Detector Team

Tại sao chúng tôi công bố số liệu độ chính xác

Hầu hết các công cụ phát hiện AI yêu cầu bạn tin tưởng vào một điểm số không rõ ràng duy nhất. Chúng tôi nghĩ bạn xứng đáng được nhìn thấy bằng chứng. Trên trang này, chúng tôi chia sẻ toàn bộ kết quả của lần chạy kiểm định nội bộ — mỗi mô hình tạo văn bản chúng tôi đã thử nghiệm, điểm AUC-ROC trên từng mô hình, các loại bài luận gây khó khăn nhất cho chúng tôi, và các ngưỡng quyết định chúng tôi sử dụng trong môi trường sản xuất.

Mức độ minh bạch này khá bất thường trong lĩnh vực phát hiện AI. Hầu hết các đối thủ cạnh tranh — nhà cung cấp công cụ kiểm tra đạo văn, dịch vụ phát hiện AI chuyên biệt, công cụ SaaS thông thường — không công bố dữ liệu độ chính xác hoặc chỉ công bố một con số được chọn lọc. Mô hình đó không bền vững: các nhà giáo dục, nhà xuất bản và nhà nghiên cứu cần các benchmark có thể tái lập trước khi có thể tin tưởng vào bất kỳ công cụ nào.

Số liệu của chúng tôi đến từ tập kiểm định 1.000 mẫu được tách ra từ kho dữ liệu hiệu chỉnh dùng để huấn luyện bộ phát hiện ModernBERT của chúng tôi. Cùng một phương pháp luận điều khiển benchmark này chạy trên mọi tài liệu bạn gửi qua công cụ của chúng tôi. Không có gì được giữ lại cho các bản demo.

Kho dữ liệu kiểm tra và phương pháp luận

Tập kiểm định chứa 1.000 bài luận được lấy từ kho dữ liệu hiệu chỉnh 1.200 mẫu: 600 bài luận do con người viết (từ dữ liệu nhiệm vụ chung PAN25 và tập dữ liệu bài luận lập luận PERSUADE) và 600 bài luận do AI tạo ra (được tạo bởi 22 mô hình ngôn ngữ lớn riêng biệt dưới sự kiểm soát của các prompt). Tỷ lệ chia 80/20 giữa huấn luyện và kiểm định được cố định và có thể tái lập.

Mỗi mẫu được chấm điểm riêng lẻ, không có quyền truy cập vào siêu dữ liệu có thể tiết lộ nhãn đúng. Bộ phát hiện trả về một xác suất trong khoảng [0, 100] biểu thị khả năng mẫu được tạo bởi AI. Sau đó chúng tôi tính diện tích dưới đường cong đặc trưng vận hành máy thu (AUC-ROC) theo từng mô hình tạo văn bản và theo cấp độ loại bài luận.

Tất cả các ngưỡng, siêu tham số huấn luyện và đầu ra xác suất thô đều được ghi lại. Bản thân tập dữ liệu có thể tải xuống ở cuối trang này — định dạng CSV, một hàng mỗi mẫu, với danh tính mô hình tạo văn bản, nhãn loại bài luận, điểm thô và phán quyết nhị phân cuối cùng.

Kết quả tổng quan

Trên toàn bộ tập 1.000 mẫu, bộ phát hiện tổng hợp của chúng tôi đạt được AUC-ROC [AUC: 0.9884]. Tại ngưỡng quyết định 50% chúng tôi sử dụng trong môi trường sản xuất: 0 dương tính giả trên các bài luận của con người trong tập kiểm định, và 60% recall trên các bài luận AI. Tại ngưỡng tối ưu F1 là 26,56%, recall tăng lên 90% với chi phí là 2% dương tính giả — một sự đánh đổi phù hợp hơn với quy trình sàng lọc độ nhạy cao.

Phán quyết cấp độ tài liệu trên công cụ công khai của chúng tôi sử dụng ngưỡng thận trọng 50%, ưu tiên không có dương tính giả hơn là recall tối đa. Giáo viên, nhà xuất bản và nhà nghiên cứu có thể ghi đè điều này thông qua thanh trượt độ nhạy trong widget khi họ muốn gắn cờ tích cực hơn.

Để so sánh, thành phần zero-shot Binoculars riêng lẻ (thiết lập 2× Llama-3.1-8B) đạt điểm AUC [AUC: 0.8509] độc lập. Thành phần ModernBERT được tinh chỉnh riêng lẻ đạt [AUC: 1.0000] trên các bài luận trong phân phối và [AUC: 0.9069] trên văn bản ngoài phân phối. Tổ hợp nằm giữa chúng trên bất kỳ trục đơn nào nhưng vượt trội hơn cả hai trung bình vì nó sửa chữa những điểm yếu bổ sung của chúng.

Phân tích theo từng mô hình tạo văn bản

Đây là bảng AUC-ROC theo từng mô hình. Các mô hình được sắp xếp từ dễ phát hiện nhất đến khó phát hiện nhất trong tập kiểm định của chúng tôi. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Các mô hình OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Khác: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Mô hình chính: các mô hình mới hơn, lớn hơn, được tinh chỉnh theo hướng dẫn có xu hướng tạo ra văn bản trông giống con người hơn với bất kỳ bộ phát hiện thống kê nào, bao gồm cả của chúng tôi. Claude 4.5 Sonnet và GPT-5.x là hai họ mô hình mà phân phối điểm của chúng tôi chồng chéo nhiều nhất với đường cơ sở của con người. Điều này phù hợp với mọi nghiên cứu độc lập được công bố vào năm 2025 — cuộc chạy đua vũ trang là có thật và kích thước mô hình là một trở lực trực tiếp cho việc phát hiện.

Những lĩnh vực bộ phát hiện gặp khó khăn

Không phải tất cả văn bản đều có thể phát hiện như nhau. Chúng tôi chia kết quả theo loại bài luận — mỗi danh mục prompt PERSUADE — và khoảng cách giữa tốt nhất và tệ nhất là rất lớn. [PER-TYPE TABLE]

Bài luận lập luận, thuyết phục và trình bày: lĩnh vực mạnh nhất của bộ phát hiện. AUC thường đạt 0,97–1,00 vì các kho dữ liệu huấn luyện ưu tiên các phong cách này. Đây là nơi hầu hết các trường hợp sử dụng về tính toàn vẹn học thuật thuộc về.

Sáng tác sáng tạo và phân tích văn học: lĩnh vực yếu nhất của chúng tôi. Đối với phân tích văn học (literary_analysis), AUC giảm xuống 0,69 — phong cách con người trong văn học hư cấu hội tụ với đầu ra LLM và cả thành phần có giám sát lẫn zero-shot của chúng tôi đều không thể phân biệt chúng một cách đáng tin cậy. Hãy coi một điểm AI cao trên văn học hư cấu với thái độ hoài nghi.

Hãy thử bộ phát hiện trên văn bản của bạn

Dán bất kỳ tài liệu nào và xem cùng phán quyết theo từng câu và ngưỡng quyết định mà chúng tôi sử dụng cho các số liệu benchmark này. Miễn phí, không cần đăng ký.

Hạn chế và các chế độ thất bại

Ba loại văn bản thoát khỏi bộ phát hiện của chúng tôi thường xuyên hơn tập kiểm định cho thấy. Văn bản AI được nhân hóa — đầu ra được chuyển qua một công cụ diễn giải hoặc chuyển đổi phong cách đối nghịch — thường được chấm điểm là con người ngay cả khi văn bản cơ bản được tạo hoàn toàn. Văn bản ngắn (dưới 100 từ) rất khó phân loại vì không có đủ tín hiệu thống kê. Văn bản tiếng Anh của người không phải bản ngữ có thể được chấm điểm là do AI tạo ra vì LLM và người viết ESL có chung một số sở thích từ vựng và cú pháp.

Bộ phát hiện của chúng tôi có tính xác suất, không phải bằng chứng. Điểm AI cao là tín hiệu để điều tra thêm, không phải bằng chứng về vi phạm. Chúng tôi đặc biệt khuyến nghị kết hợp điểm số với ngữ cảnh: lịch sử chỉnh sửa gần đây, bản nháp phiên bản, mẫu viết từ cùng tác giả, và — khi được phép — một cuộc trò chuyện ngắn với tác giả.

Chúng tôi liên tục tái huấn luyện trên đầu ra của các mô hình tạo văn bản mới nhất, nhưng luôn có độ trễ: một mô hình được phát hành tuần trước có thể chưa được đại diện tốt trong dữ liệu huấn luyện. Nếu quy trình của bạn phụ thuộc vào việc bắt kịp các mô hình mới nhất, hãy kiểm tra lại trang benchmark của chúng tôi hàng quý để cập nhật số liệu.

Tải xuống tập dữ liệu đầy đủ

Chúng tôi công bố kết quả kiểm định thô để các nhà nghiên cứu, nhà báo và nhà giáo dục có thể độc lập xác minh các tuyên bố của chúng tôi. CSV chứa: ID mẫu, danh tính mô hình tạo văn bản (hoặc 'human'), nhãn loại bài luận, đầu ra xác suất thô, phán quyết nhị phân tại ngưỡng 50%, phán quyết nhị phân tại ngưỡng 26,56%.

Tải xuống: ai-detector-benchmark-2026-04.csv (cập nhật hàng quý). Sử dụng học thuật không bị hạn chế; tái xuất bản thương mại yêu cầu ghi nhận nguồn: “Trình phát hiện đạo văn — AI Detection Benchmark 2026-04”.

Để có phiên bản tương tác của cùng phương pháp luận trên văn bản của bạn, hãy thử công cụ Kiểm tra AI & Đạo văn của chúng tôi — dán bất kỳ tài liệu nào và xem phán quyết theo từng câu, cùng các ngưỡng quyết định và khoảng tin cậy giống như chúng tôi sử dụng cho các số liệu đã công bố này.

Câu hỏi thường gặp

Benchmark này được cập nhật bao lâu một lần?

Mỗi quý. Khi một mô hình tạo văn bản chính (GPT-6, Claude 5, Gemini 3) ra mắt, chúng tôi thêm nó vào kho dữ liệu kiểm tra trong vòng 4 tuần và tái công bố bảng cập nhật. Các phiên bản lịch sử được lưu trữ với tên tệp có ngày — phiên bản 2026-04 là bản phát hành ổn định hiện tại.

Tại sao bạn không công bố đầu ra xác suất theo từng mẫu?

Chúng tôi có — CSV có thể tải xuống chứa xác suất thô. Những gì chúng tôi không công bố là văn bản bài luận gốc, vì kho dữ liệu PAN25 và tập dữ liệu PERSUADE có các hạn chế về phân phối lại. Nếu bạn muốn văn bản, hãy lấy trực tiếp từ nguồn của những tập dữ liệu đó (liên kết trong tài liệu CSV).

Tôi có thể tin tưởng vào bộ phát hiện nếu AUC dưới 1,0 không?

Không có bộ phát hiện nào đạt AUC 1,0 trên mọi mô hình tạo văn bản, vì vậy câu hỏi không phải là ‘nó có hoàn hảo không’ mà là ‘nó có minh bạch không.’ Một bộ phát hiện công bố AUC 0,95 và cho bạn biết những điểm nó gặp khó khăn đáng tin cậy hơn một bộ công bố ‘độ chính xác dẫn đầu ngành’ mà không có con số cụ thể. AUC [AUC: 0.9884] của chúng tôi là hiệu suất trung bình trung thực; phân tích theo từng mô hình tạo văn bản và theo loại bài luận là nơi bạn nên đưa ra quyết định mua hàng.

Bộ phát hiện AI của bạn có sẵn sàng cho xuất bản học thuật không?

Phương pháp luận cơ bản thì có — Binoculars (ICML 2024) và ModernBERT đều là các kiến trúc đã được đồng nghiệp đánh giá. Kho dữ liệu tinh chỉnh cụ thể và các ngưỡng của chúng tôi là độc quyền nhưng phương pháp luận benchmark hoàn toàn có thể tái lập.

Công cụ trực tuyến miễn phí so sánh với sản phẩm máy tính để bàn như thế nào?

Cùng một engine, cùng số liệu độ chính xác, cùng logic phán quyết theo từng câu. Sản phẩm máy tính để bàn bổ sung độ dài tài liệu không giới hạn, quét ngoại tuyến, đối chiếu đạo văn tích hợp với 4 tỷ trang web, và xử lý hàng loạt toàn bộ thư mục. Đối với kiểm tra ngẫu nhiên, công cụ trực tuyến là đủ; đối với quy trình hàng ngày, máy tính để bàn là công cụ phù hợp.

Kết quả benchmark được lấy từ tập kiểm định nội bộ của chúng tôi và có thể không khái quát hóa được cho văn bản ngoài phân phối. Các số liệu đã công bố đại diện cho hiệu suất trung bình trên 1.000 mẫu; tài liệu của bạn có thể được chấm điểm khác. Sử dụng kết quả phát hiện AI như một đầu vào trong nhiều đầu vào, không phải là bằng chứng duy nhất về tác quyền.