導航至頂部
為何 AI 文本偵測如此困難:攻防軍備競賽 | 抄襲偵測器

為何 AI 文本偵測如此困難:深入軍備競賽

偵測與生成陷入了貓鼠遊戲。每次新模型發布都縮小了偵測器所依賴的統計差距——而每次偵測改進都會引發新的人工化工具作為回應。以下是幕後真正發生的事情。

2026-04-17 · Plagiarism Detector Team

偵測的統計基礎

每款 AI 文本偵測器本質上都是統計判別器——它查看文本特徵(詞元概率、困惑度、突發性、句法規律性),並嘗試找出區分機器生成與人工撰寫內容的信號。Binoculars 方法(ICML 2024)使用兩個語言模型之間的交叉困惑度比率作為信號。ModernBERT 監督式方法直接從標記樣本中學習信號。

兩種方法共享一個根本弱點:它們所依賴的信號是模型生成文本方式的副效應,而非機器撰寫的根本特徵。隨著生成器改進,這些副效應縮小。一個被訓練得更像人類書寫的模型,在定義上就更難被偵測到。

這不是研究上的失敗,而是關於該問題的結構性事實。偵測面對的是一個移動靶:每次重大大型語言模型發布都縮小差距,每款人工化工具都針對偵測器輸出進行明確訓練。問題不是「我們能永遠實現 100% 偵測嗎」——這不可能做到——而是「我們能在實踐中對當前這一代保持足夠長的領先嗎」。

進攻面——生成能力提升

三種生成趨勢使偵測更加困難。規模:較大的模型生成統計上更多樣的文本,因為它們具有更豐富的內部分佈。一個 700 億參數的模型比 70 億參數的模型具有更廣泛的類人輸出範圍。指令微調:RLHF 和憲法方法訓練模型避免讓 GPT-3 容易被發現的重複性、過度謹慎、平淡的語言模式。溫度和採樣:聊天介面已轉向核採樣和隨機性,這打破了古典偵測器用作錨點的一些低方差模式。

GPT-5、Claude 4.5 和 Gemini 2.5 都明顯比其前身更難偵測。我們的內部驗證證實了這一點:與上一代相比,每個模型世代使我們對該模型族的 AUC 下降 5–10 個百分點。有關逐模型數字,請參見我們的準確率基準

人工化工具——Undetectable AI、StealthWriter、Humanbeing 以及日益增多的工具清單——是明確的對手。它們獲取 AI 輸出並進行改寫、重寫或風格遷移,專門用來擊敗偵測器。它們針對公開偵測器(包括我們的,儘管我們從不分享模型權重)進行訓練,並且每次更新後都明顯更強。

防禦面——偵測反應

偵測器對生成軍備競賽有三種回應。整合:結合多種偵測信號,使任何單一規避策略都不夠用。我們的零樣本 Binoculars 與監督式 ModernBERT 整合利用了這一點:能擊敗一個元件的人工化工具往往無法對抗另一個,而整合分數同時捕捉兩者。

持續再訓練:我們在每個重要新生成模型發布後 4 週內加入其樣本。如果 GPT-6 明天上線,我們的訓練語料庫將在下個月中旬包含它。這很昂貴——算力、標注、重新驗證——但這是保持偵測最新狀態的唯一方法。每年或更少進行再訓練的偵測器在一年內實際上就成了博物館藏品。

對抗訓練:我們特意在人工化 AI 樣本和改寫輸出上進行訓練,教導模型看穿表面的風格遷移。這提高了人工化工具必須做到的最低程度才能規避我們的門檻,從而減緩軍備競賽。

規避生態系統的內部

人工化工具實際上是如何工作的?三大類別。改寫:使用輔助大型語言模型逐字或逐句重寫文本。對依賴精確詞元序列的樸素偵測器有效;對統計方法效果一般。風格遷移:將文本轉換為模仿特定作者或語域。更有效——我們偵測器在風格遷移 AI 文本上的 AUC 下降約 8 個百分點。

混合人機編輯:作者撰寫草稿,通過大型語言模型潤色,然後手動編輯潤色版本。這是最困難的情況——在句子級別混合人類和機器信號的合理協作作品。包括我們在內的任何偵測器,在沒有偵測器看不到的編輯歷史元資料的情況下,都無法可靠地解決這類問題。

一個有用的思維模型:人工化工具不是偵測器破解器,而是規避者的成本倍增器。它需要時間、有時需要金錢,並且始終有引入錯誤的風險。大多數學術作弊行為並不使用人工化工具,因為摩擦超過了收益。人工化工具主導的地方是專業內容農場和 AI 生成的 SEO 垃圾——在這些使用場景中,吞吐量重要,品質控制薄弱。

立即查看我們的偵測器評分

貼上任意文件,即時觀看逐句判定。上述整合邏輯在 30 秒內對你的文本運行。

為何整合比任何單一指標更重要

單信號偵測器有單一失效模式。如果你只依賴困惑度,改變詞元概率的改寫輸出就能擊敗你。如果你只依賴監督式分類器,分佈外文本(新模型族、新寫作領域)就能擊敗你。整合平均了弱點:擊敗困惑度的改寫可能仍然觸發監督式分類頭,反之亦然。

我們的生產偵測器明確採用整合:35% Binoculars(零樣本、模型無關、對分佈外情況有韌性)+ 65% ModernBERT(監督式、領域專屬、在分佈內文本上高精度)。權重是根據經驗選擇的——當 ModernBERT 主導但 Binoculars 在邊緣案例上保留否決權時,整合 AUC 達到最大。

結果:人工化工具現在必須同時擊敗兩種架構上截然不同的偵測系統才能規避我們的判定。公開的人工化工具通常針對單一目標偵測器進行訓練,這意味著它們通常能成功對抗那個特定偵測器,但在面對整合時失敗。這是偵測在當前軍備競賽中的主要結構性優勢。

未來 12 個月的現實預期

2026–2027 年我們應該期待什麼?GPT-6Claude 5 可能是年中發布;兩者都將進一步縮小差距。開放權重模型——Llama 4Qwen 4——將繼續使高品質生成商品化,並使人工化工具的大規模使用成本更低。在發布後第一年,前沿模型的偵測 AUC 可能降至 0.80–0.90 區間,之後再訓練會修正它。

在防禦方面:多模態信號(打字動態、編輯歷史、針對已知語料庫的著作權驗證)在 24 個月內可能比純文本偵測更重要。我們的純文本偵測器將繼續作為第一道過濾器,但越來越多地成為更豐富證據堆疊中的投票成員。

誠實的結論:純文本偵測永遠無法達到 100%。它將在分佈內文本上穩定在約 90–95% AUC,在前沿模型上穩定在 75–85%。如果你的工作流程需要確定性,你需要超出分數的證據。如果你的工作流程需要強信號來優先進行人工審查,文本偵測仍然有用,並且可測量地優於什麼都不做。

常見問題

如果 AI 偵測永遠無法完美,它還值得使用嗎?
是的——問題不是「它是否完美」,而是「它是否比完全不篩查更好」。在你的工作負載上使用 90% AUC 偵測器是巨大的信噪比改善。對偵測器局限性最直言不諱的人往往是那些試圖擊敗它們的人;這不是放棄工具的論據。
水印能取代統計偵測嗎?
水印在生成文本中嵌入隱藏的統計特徵,偵測器可以之後提取。它在生成器配合時有效(OpenAI 已實驗性地部署它),但在開放權重模型上完全失效,因為這些模型在生成時不帶水印。統計偵測在可預見的未來仍然必要,因為即使生成器拒絕配合它也能工作。
今天最難偵測的是什麼?
混合人機編輯——在句子層面 AI 起草、人工潤色的文本片段。目前沒有偵測器在沒有編輯歷史元資料的情況下能可靠地解決這類問題。如果這是你的使用案例,文本偵測是錯誤的工具——你需要工作流程監控。
新生成模型的發布實際上多久降低一次你的 AUC?
大約每 3–6 個月的每次重大發布,都會使我們對該模型族的 AUC 降低 5–10 個百分點,直到我們重新訓練。再訓練在我們獲得足夠樣本後約需 4 週。實際結果:在新發布後的 2–8 週窗口內,我們對該模型族的 AUC 始終低於平均值。我們在基準頁面上披露這些差距。
整合對人工化工具有幫助嗎?
大有幫助——這是我們擁有的主要結構性防禦。人工化工具針對目標偵測器進行訓練。當目標是兩種架構上不同的偵測器組合時,人工化工具必須同時擊敗兩者,這比擊敗任何一個都要困難得多。這就是為什麼即使單一元件運行成本更低,我們也在生產中使用整合。

本文描述 AI 文本偵測的結構性特性。具體數字參考我們的內部驗證,可能無法推廣。我們隨著新研究和生成模型發布更新本頁面。