집 › 어떤 AI가 탐지하기 가장 어려운가? GPT vs Claude vs Gemini | 표절 검사기

어떤 AI가 탐지하기 가장 어려운가? GPT vs Claude vs Gemini vs Llama

모든 AI 텍스트가 동등하게 탐지 가능한 것은 아닙니다. 저희 생성 모델별 벤치마크 결과를 공개합니다 — 어느 모델 군을 거의 완벽한 정확도로 잡는지, 어느 것과 어려움을 겪는지, 그리고 이것이 탐지 워크플로 선택에 대해 무엇을 알려주는지.

2026-04-17 · Plagiarism Detector Team

간단한 답 — 리더보드

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

검증 세트에서 탐지하기 쉬운 것부터 어려운 순서로 정렬. 범위가 넓습니다 — 일부 모델 군의 AUC는 0.99를 초과하는 반면 다른 것들은 0.80대로 떨어집니다. 탐지 난이도는 모델 크기, 지시 조정 정교함, 출력 분산과 상관관계가 있습니다.

전체 생성 모델별 분석 방법론은 저희 정확도 벤치마크 페이지를 참조하세요. 이 글은 어느 탐지기를 신뢰할지, 어느 모델을 사용할지 선택하는 사용자를 위한 데이터의 실용적 의미를 요약합니다.

OpenAI 군 — GPT

GPT-3.5는 탐지하기 가장 쉬운 현대 모델입니다 — 저희 세트에서 AUC [AUC: ?]. 레거시 생성 아티팩트(반복, 회피, 단조로운 레지스터)가 여전히 명확히 존재합니다. GPT-4는 AUC [AUC: ?]로, GPT-4o는 [AUC: ?]로 떨어지며, 점진적으로 더 나은 교정을 반영합니다. GPT-5.x는 군 중 가장 어렵습니다 — AUC [AUC: ?] — 지시 조정 팀이 탐지 아티팩트 제거를 명시적으로 목표로 했기 때문입니다.

실용적 의미: GPT-3.5 시대 부정행위에 관심 있는 학문적 워크플로는 탐지만으로도 크게 의존할 수 있습니다. GPT-5에 관심 있는 워크플로는 저희 교사 워크플로 가이드에 설명된 대로 탐지를 맥락적 증거와 결합해야 합니다.

온도 설정이 중요합니다. 저온 출력(t≤0.5)은 더 좁은 어휘에 확률 질량을 집중하기 때문에 탐지하기 더 쉽습니다. 대부분의 채팅 인터페이스는 t≈0.7을 기본값으로 하여 텍스트를 보통 탐지 가능한 영역에 배치합니다. 적대적 사용자는 범위를 넓히고 탐지를 피하기 위해 명시적으로 온도를 높이거나 다양한 디코딩을 사용합니다 — 저희 앙상블은 이를 부분적으로 수정하지만 완전히는 아닙니다.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude 군은 동세대 GPT 모델보다 일관되게 덜 반복적이고 스타일적으로 더 다양한 텍스트를 생성하여 통계적 방법으로 탐지하기 더 어렵게 만듭니다.

Claude의 헌법적 AI 훈련은 저희 지도 학습 분류기가 학습하는 "기계의 특징들" — 회피 패턴, 특정 연결사 과다 사용, 예측 가능한 단락 구조 — 을 명시적으로 목표로 합니다. 이것은 직접적인 적대적 관계입니다: 생성 모델은 탐지기가 의존하는 특징에 대해 훈련됩니다.

Claude 4.5 Sonnet과 GPT-5.x는 난이도가 비슷합니다. 검증 데이터에서 인간 기준과 가장 많이 겹치는 점수 분포를 가집니다. 이 모델 중 하나를 목표로 하는 워크플로는 기본 임계값에서 재현율이 감소할 것으로 예상하고 고민감도 선별을 위해 F1 최적으로 낮추는 것을 고려하세요.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini는 버전 간에 가장 가변적인 탐지 성능을 보였습니다 — 일부 중간 릴리스는 개선이 적용되기 전에 일시적으로 후퇴했습니다.

Gemini의 다중 모달 훈련은 텍스트 전용 출력이 때때로 이미지 캡션 또는 코드 설명 도메인에서 남은 패턴을 갖는다는 것을 의미합니다. 저희 탐지기는 이를 포착하는데, 이는 Gemini가 순수 산문보다 혼합 도메인 프롬프트에서 약간 더 높은 탐지 가능성을 가지는 이유를 설명합니다.

Docs를 통해 학생이나 직원이 Gemini를 사용하는 Google Workspace 사용자의 경우, 탐지 신호는 원시 API 출력과 유사합니다. 저희는 직접 Gemini API 사용과 구별되는 워크스페이스 통합 특정 회피 패턴을 관찰하지 못했습니다.

어떤 모델의 샘플이든 확인해보세요

어떤 LLM에서든 출력을 붙여넣고 문장별 판정을 확인하세요. 저희 탐지기는 22개 모든 모델 군을 단일 앙상블 검사로 처리합니다.

Meta와 오픈 가중치 모델

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. 오픈 가중치 모델은 클로즈드 모델보다 더 넓은 범위에 걸쳐 있습니다 — 미세 조정 변형, 양자화 배포, 커뮤니티 수정된 체크포인트 모두 미묘하게 다른 출력을 생성합니다.

오픈 가중치에서의 탐지는 전략적으로 중요합니다. 인간화 도구는 보통 오픈 가중치 모델을 기반으로 구축되기 때문입니다 — Llama와 Mistral 파생물이 로컬에서 저비용으로 실행되는 것이 패러프레이징 및 스타일 변환 서비스가 이를 저가로 제공하는 이유입니다. 인간화된 AI에 대한 우려가 있다면, 궁극적으로 Llama 군 생성에 대해 방어하고 있는 것입니다.

DeepSeek R1과 o3-mini(OpenAI 추론 모델)는 별도로 언급할 가치가 있습니다. 둘 다 추론 체인 아티팩트를 가진 텍스트를 생성합니다 — 출력에 보이는 명시적인 단계별 논리 — 저희 탐지기는 이를 인식하도록 학습했습니다. 추론 모델은 이 이유로 현재 기본 채팅 카운터파트보다 탐지하기 더 쉽습니다.

이러한 차이가 여러분에게 의미하는 것

탐지가 관심사가 아닌 글쓰기 모델을 고른다면 Claude 4.5 Sonnet과 GPT-5가 탐지하기 가장 어렵습니다. 탐지 워크플로를 구축한다면 실제로 보는 모델에 우선순위를 두세요: 대부분의 학문적 오용은 여전히 무료 인터페이스를 통한 GPT-4/5에서 실행됩니다; 대부분의 콘텐츠 팜은 Llama 파생 인간화 도구에서 실행됩니다.

단일 모델 군에서 훈련된 단일 탐지기는 다른 것들에서 최악의 성능을 발휘합니다. 저희 앙상블 접근법은 22개 모든 생성 모델의 샘플에서 훈련합니다. 이것이 어려운 경우(Claude 4.5, GPT-5)의 모델별 AUC가 여전히 0.90 이상인 이유입니다. 반면 단일 모델 훈련 탐지기는 0.80 미만으로 떨어질 것입니다.

기저 트렌드: 탐지 난이도는 생성 모델 출시 케이던스보다 더 빠르게 상승하고 있습니다. 각 새 플래그십은 이전 것보다 탐지하기 더 어렵고, 재훈련은 격차를 좁히지만 완전히는 아닙니다. 2026–2027 기준은 프론티어 모델에서 AUC가 더 낮고 레거시 모델에서는 대략 일정할 것으로 예상하세요.

자주 묻는 질문

일부 모델이 탐지하기 더 어렵다면 탐지기 사용을 완전히 피해야 하나요?

아니요 — 가장 어려운 모델 군에서도 저희 AUC는 0.85 이상으로 강력한 신호입니다. 문제는 신호를 어떻게 사용하는가입니다. 탐지하기 어려운 모델의 경우, 점수를 뒷받침 증거(편집 내역, 수업 내 작업, 학생 대화)와 결합하세요. 탐지하기 쉬운 모델의 경우, 점수 단독으로 충분한 경우가 많습니다.

탐지를 피하기 위해 어떤 모델을 사용해야 하나요?

저희는 이 질문에 직접 답하지 않습니다 — 저희는 탐지 도구를 운영하지 회피 가이드를 운영하지 않습니다. 말할 수 있는 것은: 탐지 가능-불가능은 모델 선택의 올바른 기준이 아닙니다. 품질, 비용, 목적 적합성이 탐지 난이도보다 훨씬 더 중요합니다. AI 지원으로 합법적으로 글을 쓴다면 도구를 숨기는 것보다 공개와 투명한 워크플로가 더 중요합니다.

오픈 가중치 모델 변형은 다른 탐지 프로필을 가지나요?

네, 의미있게 그렇습니다. 특정 글쓰기 스타일을 위해 훈련된 커뮤니티 미세 조정 Llama 3.3 변형은 바닐라 Llama 3.3과 다르게 점수가 매겨지는 텍스트를 생성할 수 있습니다. 저희 벤치마크는 표준 체크포인트를 커버합니다; 커스텀 미세 조정은 더 쉬울 수도 있고(출력 분포를 좁히면) 더 어려울 수도 있습니다(명시적으로 탐지에 대해 적대적으로 훈련하면).

온도와 샘플링이 탐지 가능성에 어떤 영향을 미치나요?

더 높은 온도와 더 다양한 샘플링은 출력 분포를 넓히기 때문에 일반적으로 탐지 가능성을 줄입니다. 저온 탐욕적 디코딩은 탐지하기 가장 쉽습니다. 대부분의 운영 채팅 인터페이스는 핵 샘플링과 함께 t≈0.7–1.0으로 실행되어 보통 탐지 가능한 체제에 배치됩니다 — 저희 앙상블은 기본 범위에서 유사하게 수행됩니다.

GPT-6이나 Claude 5는 언제 출시되고 무엇을 기대해야 하나요?

2026년 중반이 두 모델 모두에 대한 컨센서스 예측입니다. 출시 후 4–8주 동안 새 군에서 탐지 AUC가 0.80–0.85 범위로 떨어질 것으로 예상합니다. 샘플을 수집하고 재훈련하는 동안. 역사적 버전은 모델이 널리 사용 가능하다면 8–12주 내에 완전 회복을 시사합니다; 희귀하거나 제한된 접근 모델의 경우 더 오래 걸립니다.

모델별 AUC 수치는 내부 검증에서 도출된 것으로 일반화되지 않을 수 있습니다. 각 모델의 난이도는 생성 모델과 훈련 말뭉치가 발전함에 따라 시간이 지남에 따라 변합니다. 현재 데이터는 2026-04 벤치마크 실행을 반영합니다.