모든 AI 텍스트가 동등하게 탐지 가능한 것은 아닙니다. 저희 생성 모델별 벤치마크 결과를 공개합니다 — 어느 모델 군을 거의 완벽한 정확도로 잡는지, 어느 것과 어려움을 겪는지, 그리고 이것이 탐지 워크플로 선택에 대해 무엇을 알려주는지.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
검증 세트에서 탐지하기 쉬운 것부터 어려운 순서로 정렬. 범위가 넓습니다 — 일부 모델 군의 AUC는 0.99를 초과하는 반면 다른 것들은 0.80대로 떨어집니다. 탐지 난이도는 모델 크기, 지시 조정 정교함, 출력 분산과 상관관계가 있습니다.
전체 생성 모델별 분석 방법론은 저희 정확도 벤치마크 페이지를 참조하세요. 이 글은 어느 탐지기를 신뢰할지, 어느 모델을 사용할지 선택하는 사용자를 위한 데이터의 실용적 의미를 요약합니다.
GPT-3.5는 탐지하기 가장 쉬운 현대 모델입니다 — 저희 세트에서 AUC [AUC: ?]. 레거시 생성 아티팩트(반복, 회피, 단조로운 레지스터)가 여전히 명확히 존재합니다. GPT-4는 AUC [AUC: ?]로, GPT-4o는 [AUC: ?]로 떨어지며, 점진적으로 더 나은 교정을 반영합니다. GPT-5.x는 군 중 가장 어렵습니다 — AUC [AUC: ?] — 지시 조정 팀이 탐지 아티팩트 제거를 명시적으로 목표로 했기 때문입니다.
실용적 의미: GPT-3.5 시대 부정행위에 관심 있는 학문적 워크플로는 탐지만으로도 크게 의존할 수 있습니다. GPT-5에 관심 있는 워크플로는 저희 교사 워크플로 가이드에 설명된 대로 탐지를 맥락적 증거와 결합해야 합니다.
온도 설정이 중요합니다. 저온 출력(t≤0.5)은 더 좁은 어휘에 확률 질량을 집중하기 때문에 탐지하기 더 쉽습니다. 대부분의 채팅 인터페이스는 t≈0.7을 기본값으로 하여 텍스트를 보통 탐지 가능한 영역에 배치합니다. 적대적 사용자는 범위를 넓히고 탐지를 피하기 위해 명시적으로 온도를 높이거나 다양한 디코딩을 사용합니다 — 저희 앙상블은 이를 부분적으로 수정하지만 완전히는 아닙니다.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude 군은 동세대 GPT 모델보다 일관되게 덜 반복적이고 스타일적으로 더 다양한 텍스트를 생성하여 통계적 방법으로 탐지하기 더 어렵게 만듭니다.
Claude의 헌법적 AI 훈련은 저희 지도 학습 분류기가 학습하는 "기계의 특징들" — 회피 패턴, 특정 연결사 과다 사용, 예측 가능한 단락 구조 — 을 명시적으로 목표로 합니다. 이것은 직접적인 적대적 관계입니다: 생성 모델은 탐지기가 의존하는 특징에 대해 훈련됩니다.
Claude 4.5 Sonnet과 GPT-5.x는 난이도가 비슷합니다. 검증 데이터에서 인간 기준과 가장 많이 겹치는 점수 분포를 가집니다. 이 모델 중 하나를 목표로 하는 워크플로는 기본 임계값에서 재현율이 감소할 것으로 예상하고 고민감도 선별을 위해 F1 최적으로 낮추는 것을 고려하세요.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini는 버전 간에 가장 가변적인 탐지 성능을 보였습니다 — 일부 중간 릴리스는 개선이 적용되기 전에 일시적으로 후퇴했습니다.
Gemini의 다중 모달 훈련은 텍스트 전용 출력이 때때로 이미지 캡션 또는 코드 설명 도메인에서 남은 패턴을 갖는다는 것을 의미합니다. 저희 탐지기는 이를 포착하는데, 이는 Gemini가 순수 산문보다 혼합 도메인 프롬프트에서 약간 더 높은 탐지 가능성을 가지는 이유를 설명합니다.
Docs를 통해 학생이나 직원이 Gemini를 사용하는 Google Workspace 사용자의 경우, 탐지 신호는 원시 API 출력과 유사합니다. 저희는 직접 Gemini API 사용과 구별되는 워크스페이스 통합 특정 회피 패턴을 관찰하지 못했습니다.
어떤 LLM에서든 출력을 붙여넣고 문장별 판정을 확인하세요. 저희 탐지기는 22개 모든 모델 군을 단일 앙상블 검사로 처리합니다.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. 오픈 가중치 모델은 클로즈드 모델보다 더 넓은 범위에 걸쳐 있습니다 — 미세 조정 변형, 양자화 배포, 커뮤니티 수정된 체크포인트 모두 미묘하게 다른 출력을 생성합니다.
오픈 가중치에서의 탐지는 전략적으로 중요합니다. 인간화 도구는 보통 오픈 가중치 모델을 기반으로 구축되기 때문입니다 — Llama와 Mistral 파생물이 로컬에서 저비용으로 실행되는 것이 패러프레이징 및 스타일 변환 서비스가 이를 저가로 제공하는 이유입니다. 인간화된 AI에 대한 우려가 있다면, 궁극적으로 Llama 군 생성에 대해 방어하고 있는 것입니다.
DeepSeek R1과 o3-mini(OpenAI 추론 모델)는 별도로 언급할 가치가 있습니다. 둘 다 추론 체인 아티팩트를 가진 텍스트를 생성합니다 — 출력에 보이는 명시적인 단계별 논리 — 저희 탐지기는 이를 인식하도록 학습했습니다. 추론 모델은 이 이유로 현재 기본 채팅 카운터파트보다 탐지하기 더 쉽습니다.
탐지가 관심사가 아닌 글쓰기 모델을 고른다면 Claude 4.5 Sonnet과 GPT-5가 탐지하기 가장 어렵습니다. 탐지 워크플로를 구축한다면 실제로 보는 모델에 우선순위를 두세요: 대부분의 학문적 오용은 여전히 무료 인터페이스를 통한 GPT-4/5에서 실행됩니다; 대부분의 콘텐츠 팜은 Llama 파생 인간화 도구에서 실행됩니다.
단일 모델 군에서 훈련된 단일 탐지기는 다른 것들에서 최악의 성능을 발휘합니다. 저희 앙상블 접근법은 22개 모든 생성 모델의 샘플에서 훈련합니다. 이것이 어려운 경우(Claude 4.5, GPT-5)의 모델별 AUC가 여전히 0.90 이상인 이유입니다. 반면 단일 모델 훈련 탐지기는 0.80 미만으로 떨어질 것입니다.
기저 트렌드: 탐지 난이도는 생성 모델 출시 케이던스보다 더 빠르게 상승하고 있습니다. 각 새 플래그십은 이전 것보다 탐지하기 더 어렵고, 재훈련은 격차를 좁히지만 완전히는 아닙니다. 2026–2027 기준은 프론티어 모델에서 AUC가 더 낮고 레거시 모델에서는 대략 일정할 것으로 예상하세요.
모델별 AUC 수치는 내부 검증에서 도출된 것으로 일반화되지 않을 수 있습니다. 각 모델의 난이도는 생성 모델과 훈련 말뭉치가 발전함에 따라 시간이 지남에 따라 변합니다. 현재 데이터는 2026-04 벤치마크 실행을 반영합니다.