Điều hướng lên trên cùng
Trang chủ Tại sao phát hiện văn bản AI lại khó: Cuộc chạy đua vũ trang tấn công-phòng thủ | Trình phát hiện đạo văn

Tại sao phát hiện văn bản AI lại khó: Bên trong cuộc chạy đua vũ trang

Phát hiện và tạo văn bản bị khóa trong một cuộc đua mèo và chuột. Mỗi lần phát hành mô hình mới thu hẹp khoảng cách thống kê mà các bộ phát hiện dựa vào — và mỗi cải tiến phát hiện được đáp trả bằng một công cụ nhân hóa mới. Đây là những gì thực sự đang xảy ra bên trong.

2026-04-17 · Plagiarism Detector Team

Cơ sở thống kê của phát hiện

Mọi bộ phát hiện văn bản AI đều là một bộ phân biệt thống kê — nó xem xét các đặc điểm của văn bản (xác suất token, độ phức tạp, tính bùng phát, tính đều đặn cú pháp) và cố gắng tìm các tín hiệu phân biệt nội dung do máy tạo ra với nội dung do con người viết. Phương pháp Binoculars (ICML 2024) sử dụng tỷ lệ cross-perplexity giữa hai mô hình ngôn ngữ làm tín hiệu. Cách tiếp cận có giám sát ModernBERT học tín hiệu trực tiếp từ các ví dụ có nhãn.

Cả hai cách tiếp cận đều có một điểm dễ bị tổn thương căn bản: các tín hiệu mà chúng dựa vào là các tác dụng phụ của cách các mô hình tạo văn bản, không phải là đặc điểm cơ bản của văn bản do máy viết. Khi các mô hình tạo văn bản được cải thiện, những tác dụng phụ đó thu hẹp lại. Một mô hình được huấn luyện để viết giống con người hơn — theo định nghĩa — sẽ khó phát hiện hơn.

Đây không phải là thất bại nghiên cứu. Đây là một thực tế cấu trúc về vấn đề. Phát hiện hoạt động trên một mục tiêu di động: mỗi lần phát hành LLM lớn thu hẹp khoảng cách, mỗi công cụ nhân hóa huấn luyện rõ ràng chống lại đầu ra của bộ phát hiện. Câu hỏi không phải là ‘chúng ta có thể đạt được 100% phát hiện mãi mãi không’ — không thể — mà là ‘chúng ta có thể đi trước thế hệ hiện tại đủ lâu để có ích trong thực tế không.’

Điều kiếm phá — Cải tiến thế hệ

Ba xu hướng tạo văn bản khiến việc phát hiện khó hơn. Kích thước: các mô hình lớn hơn tạo ra văn bản đa dạng hơn về mặt thống kê vì chúng có phân phối nội tại phong phú hơn. Một mô hình 70 tỷ tham số có phạm vi đầu ra giống con người rộng hơn một mô hình 7 tỷ tham số. Tinh chỉnh theo hướng dẫn: RLHF và các phương pháp hiến pháp dạy các mô hình tránh các mô hình lặp lại, rào đón, tẻ nhạt khiến GPT-3 dễ bị phát hiện. Nhiệt độ và lấy mẫu: các giao diện chat đã chuyển sang lấy mẫu nhân và tính ngẫu nhiên, điều này phá vỡ một số mô hình phương sai thấp mà các bộ phát hiện cổ điển sử dụng làm neo.

GPT-5, Claude 4.5 và Gemini 2.5 đều khó phát hiện hơn đáng kể so với các phiên bản trước của chúng. Xác nhận nội bộ của chúng tôi xác nhận điều này: mỗi thế hệ mô hình làm giảm AUC của chúng tôi trên họ đó đi 5–10 điểm phần trăm so với thế hệ trước. Xem benchmark độ chính xác của chúng tôi để biết số liệu theo từng mô hình.

Công cụ nhân hóa — Undetectable AI, StealthWriter, Humanbeing, và một danh sách ngày càng tăng — là các đối thủ rõ ràng. Chúng lấy đầu ra AI và diễn giải lại, viết lại hoặc chuyển đổi phong cách đặc biệt để đánh bại các bộ phát hiện. Chúng được huấn luyện chống lại các bộ phát hiện công khai (bao gồm cả của chúng tôi, mặc dù chúng tôi không bao giờ chia sẻ trọng số mô hình) và chúng ngày càng tốt hơn với mỗi bản cập nhật.

Điều khiên phòng thủ — Phát hiện phản hồi

Các bộ phát hiện có ba phản ứng với cuộc chạy đua vũ trang tạo văn bản. Tổ hợp hóa: kết hợp nhiều tín hiệu phát hiện để bất kỳ chiến thuật né tránh đơn lẻ nào đều không đủ. Tổ hợp của chúng tôi gồm Binoculars zero-shot với ModernBERT có giám sát khai thác điều này: một công cụ nhân hóa đánh bại một thành phần thường thất bại trước thành phần kia, và điểm tổ hợp ghi lại cả hai.

Tái huấn luyện liên tục: chúng tôi thêm mẫu từ mọi lần phát hành mô hình tạo văn bản lớn trong vòng 4 tuần sau khi ra mắt. Nếu GPT-6 ra mắt ngày mai, kho dữ liệu huấn luyện của chúng tôi sẽ bao gồm nó vào giữa tháng tới. Điều này tốn kém — tính toán, chú thích, tái kiểm định — nhưng đây là cách duy nhất để duy trì phát hiện hiện tại. Các bộ phát hiện tái huấn luyện hàng năm hoặc ít hơn thực sự trở thành hiện vật bảo tàng trong vòng một năm.

Huấn luyện đối nghịch: chúng tôi cố tình huấn luyện trên các mẫu AI được nhân hóa và đầu ra được diễn giải lại, dạy mô hình nhìn qua sự chuyển đổi phong cách bề mặt. Điều này nâng cao ngưỡng mà một công cụ nhân hóa phải vượt qua để thoát khỏi chúng tôi, điều này lần lượt làm chậm cuộc chạy đua vũ trang.

Bên trong bối cảnh né tránh

Các công cụ nhân hóa thực sự hoạt động như thế nào? Ba danh mục rộng. Diễn giải: viết lại văn bản từng từ hoặc từng câu bằng cách sử dụng một LLM thứ cấp. Hiệu quả chống lại các bộ phát hiện ngây thơ dựa vào các chuỗi token chính xác; hiệu quả vừa phải chống lại các phương pháp thống kê. Chuyển đổi phong cách: chuyển đổi văn bản để bắt chước một tác giả hoặc phong cách cụ thể. Hiệu quả hơn — AUC của bộ phát hiện chúng tôi giảm khoảng 8 điểm trên văn bản AI được chuyển đổi phong cách.

Chỉnh sửa kết hợp người-AI: tác giả viết bản nháp, chạy qua một LLM để đánh bóng, sau đó chỉnh sửa thủ công phiên bản đã đánh bóng. Đây là trường hợp khó nhất — công việc hợp tác hợp pháp kết hợp tín hiệu con người và máy ở cấp độ câu. Không có bộ phát hiện nào, kể cả của chúng tôi, có thể giải quyết đáng tin cậy những điều này mà không có siêu dữ liệu lịch sử chỉnh sửa mà bộ phát hiện không thể thấy.

Một mô hình tư duy hữu ích: một công cụ nhân hóa không phải là kẻ phá vỡ bộ phát hiện, nó là một bộ nhân chi phí cho người né tránh. Nó cần thời gian, đôi khi tiền bạc, và luôn thêm rủi ro đưa ra lỗi. Hầu hết các nỗ lực gian lận học thuật không sử dụng công cụ nhân hóa vì sự ma sát vượt quá lợi ích. Nơi công cụ nhân hóa chiếm ưu thế là các trang trại nội dung chuyên nghiệp và spam SEO do AI tạo ra — các trường hợp sử dụng nơi thông lượng quan trọng và kiểm soát chất lượng yếu.

Xem bộ phát hiện của chúng tôi chấm điểm ngay bây giờ

Dán bất kỳ tài liệu nào và xem phán quyết theo từng câu trong thời gian thực. Logic tổ hợp được mô tả ở trên chạy trên văn bản của bạn trong dưới 30 giây.

Tại sao tổ hợp hóa quan trọng hơn bất kỳ chỉ số đơn lẻ nào

Một bộ phát hiện tín hiệu đơn có một chế độ thất bại đơn. Nếu bạn chỉ dựa vào độ phức tạp, một đầu ra được diễn giải với xác suất token bị thay đổi sẽ đánh bại bạn. Nếu bạn chỉ dựa vào một bộ phân loại có giám sát, văn bản ngoài phân phối (một họ mô hình mới, một lĩnh vực viết mới) sẽ đánh bại bạn. Một tổ hợp làm trung bình các điểm yếu: diễn giải đánh bại độ phức tạp có thể vẫn kích hoạt đầu phân loại có giám sát, và ngược lại.

Bộ phát hiện sản xuất của chúng tôi được tổ hợp hóa rõ ràng: 35% Binoculars (zero-shot, bất khả tri mô hình, mạnh mẽ với văn bản ngoài phân phối) + 65% ModernBERT (có giám sát, đặc thù lĩnh vực, độ chính xác cao trên văn bản trong phân phối). Các trọng số được chọn theo kinh nghiệm — AUC tổ hợp được tối đa hóa khi ModernBERT chiếm ưu thế nhưng Binoculars vẫn có quyền phủ quyết trên các trường hợp ngoại lệ.

Hậu quả: một công cụ nhân hóa giờ đây phải đánh bại hai kiến trúc phát hiện khác biệt đáng kể đồng thời để thoát khỏi phán quyết của chúng tôi. Các công cụ nhân hóa công khai thường được huấn luyện chống lại một bộ phát hiện mục tiêu đơn lẻ, có nghĩa là chúng thường thành công chống lại bộ phát hiện cụ thể đó nhưng thất bại trước một tổ hợp. Đây là lợi thế cấu trúc chính của phát hiện trong cuộc chạy đua vũ trang hiện tại.

Kỳ vọng thực tế cho 12 tháng tới

Chúng ta nên kỳ vọng gì trong giai đoạn 2026–2027? GPT-6Claude 5 có thể được phát hành vào giữa năm; cả hai sẽ tiếp tục thu hẹp khoảng cách. Các mô hình trọng số mở — Llama 4, Qwen 4 — sẽ tiếp tục hàng hóa hóa việc tạo văn bản chất lượng cao và làm cho các công cụ nhân hóa rẻ hơn để chạy ở quy mô. AUC phát hiện trên các mô hình tiên tiến có thể giảm xuống khoảng 0,80–0,90 trong năm đầu tiên sau khi phát hành trước khi tái huấn luyện sửa chữa.

Về phía phòng thủ: tín hiệu đa phương thức (động lực gõ phím, lịch sử chỉnh sửa, xác minh tác quyền dựa trên kho văn bản đã biết) có thể sẽ quan trọng hơn phát hiện chỉ dựa trên văn bản trong vòng 24 tháng. Bộ phát hiện chỉ văn bản của chúng tôi sẽ vẫn là bộ lọc đầu tiên nhưng ngày càng trở thành một thành viên bỏ phiếu trong một ngăn xếp bằng chứng phong phú hơn.

Kết luận trung thực: phát hiện chỉ dựa trên văn bản sẽ không bao giờ đạt 100%. Nó sẽ đạt đỉnh ở đâu đó khoảng 90–95% AUC trên văn bản trong phân phối và 75–85% trên các mô hình tiên tiến. Nếu quy trình của bạn đòi hỏi sự chắc chắn, bạn cần bằng chứng vượt ra ngoài điểm số. Nếu quy trình của bạn đòi hỏi một tín hiệu mạnh để ưu tiên xem xét của con người, phát hiện dựa trên văn bản vẫn hữu ích và tốt hơn đáng kể so với không làm gì cả.

Câu hỏi thường gặp

Nếu phát hiện AI sẽ không bao giờ hoàn hảo, có đáng dùng không?
Có — câu hỏi không phải là ‘nó có hoàn hảo không’ mà là ‘nó có tốt hơn không sàng lọc gì không.’ Một bộ phát hiện AUC 90% trên khối lượng công việc của bạn là một cải tiến tín hiệu-nhiễu khổng lồ. Những người lên tiếng nhất về hạn chế của bộ phát hiện thường là những người đang cố gắng đánh bại chúng; đó không phải là lý lẽ để từ bỏ công cụ.
Dấu thủy vân có thể thay thế phát hiện thống kê không?
Dấu thủy vân nhúng một chữ ký thống kê ẩn vào văn bản được tạo ra mà bộ phát hiện có thể truy xuất sau đó. Nó hoạt động khi các mô hình tạo văn bản hợp tác (OpenAI đã triển khai thử nghiệm) nhưng hoàn toàn thất bại trên các mô hình trọng số mở, tạo văn bản mà không có dấu thủy vân. Phát hiện thống kê sẽ vẫn cần thiết trong tương lai có thể dự đoán vì nó hoạt động ngay cả khi mô hình tạo văn bản từ chối hợp tác.
Điều gì khó phát hiện nhất hiện nay?
Chỉnh sửa kết hợp người-AI — một đoạn văn bản do AI soạn thảo, được con người đánh bóng ở cấp độ câu. Không có bộ phát hiện nào hiện tại giải quyết đáng tin cậy những điều này mà không có quyền truy cập vào siêu dữ liệu lịch sử chỉnh sửa. Nếu đó là trường hợp sử dụng của bạn, phát hiện dựa trên văn bản là công cụ sai — bạn cần công cụ đo lường quy trình làm việc.
Một mô hình tạo văn bản mới thực sự làm giảm AUC của bạn bao lâu một lần?
Mỗi lần phát hành lớn, khoảng mỗi 3–6 tháng, giảm AUC trên họ đó đi 5–10 điểm phần trăm cho đến khi chúng tôi tái huấn luyện. Tái huấn luyện mất khoảng 4 tuần sau khi chúng tôi có đủ mẫu. Kết quả thực tế: luôn có cửa sổ 2–8 tuần sau khi ra mắt mới nơi AUC của chúng tôi trên họ đó thấp hơn mức trung bình. Chúng tôi tiết lộ những khoảng trống này trên trang benchmark.
Tổ hợp hóa có giúp chống lại công cụ nhân hóa không?
Đáng kể — đây là sự phòng thủ cấu trúc chính chúng tôi có. Công cụ nhân hóa huấn luyện chống lại bộ phát hiện mục tiêu. Khi mục tiêu đó là một tổ hợp của hai bộ phát hiện có kiến trúc khác nhau về mặt kiến trúc, công cụ nhân hóa phải đánh bại cả hai đồng thời, điều này khó hơn đáng kể so với đánh bại một trong số chúng. Đây là lý do chúng tôi sử dụng tổ hợp trong môi trường sản xuất ngay cả khi một thành phần đơn lẻ sẽ rẻ hơn để chạy.

Bài viết này mô tả các tính chất cấu trúc của phát hiện văn bản AI. Các số liệu cụ thể đề cập đến kiểm định nội bộ của chúng tôi và có thể không khái quát hóa được. Chúng tôi cập nhật trang này khi có nghiên cứu mới và các lần phát hành mô hình tạo văn bản mới.