I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [Português]

# Testei 5 Detectores de Escrita por IA — Veja com que frequência eles erram 127 amostras, 5 detectores, 5 gêneros. Precisão média: 52%. Um detector sinalizou a Constituição dos EUA como gerada por IA. Outro perdeu 100% da produção do GPT-4. Isso não é um erro de digitação. Após passar três semanas realizando testes cegos em todas as principais ferramentas de detecção de IA que consegui encontrar, descobri algo que deve preocupar qualquer um que depende desses sistemas: eles são mal melhores do que um cara ou coro. Sou professor de escrita em uma universidade de médio porte e, como muitos dos meus colegas, venho enfrentando a questão do trabalho de estudantes gerado por IA desde o lançamento do ChatGPT. A administração adquiriu licenças para dois detectores de IA comerciais. Os chefes de departamento enviaram e-mails sobre "manter a integridade acadêmica". E eu assisti enquanto o pânico se espalhava pelos lounges dos professores como um incêndio. Mas algo não parecia certo para mim. Eu vi muitas declarações confiantes—"Isso é definitivamente IA"—seguidas por retratações tímidas. Ouvi histórias de estudantes aos prantos, seu trabalho original sinalizado como fraudulento. Então decidi realizar um teste adequado, do tipo que esperaria de meus próprios alunos: controlado, documentado e reprodutível. O que encontrei foi pior do que eu esperava. Essas ferramentas não são apenas pouco confiáveis—elas são perigosamente pouco confiáveis de maneiras que podem destruir carreiras de estudantes e erodir a confiança nas instituições educacionais. E as empresas que as vendem sabem disso.

Por que Decidi Testar os Detectores de IA Eu Mesmo

O ponto de ruptura ocorreu durante o horário de atendimento em uma terça-feira à tarde de outubro. Uma estudante que chamarei de Maria sentou-se à minha frente, com as mãos tremendo enquanto segurava um relatório impresso do sistema de detecção de IA da nossa universidade. A ferramenta havia sinalizado seu ensaio pessoal—um texto cru e vulnerável sobre cuidar de sua avó com demência—como "98% provável que seja gerado por IA". Eu tinha lido esse ensaio. Eu assisti sua evolução através de três rascunhos. Eu vi Maria lutar com o peso emocional de colocar aquelas memórias no papel. Não havia um universo em que aquele ensaio tivesse sido escrito por IA. Mas a ferramenta de detecção discordou. E de acordo com a nova política do nosso departamento, uma pontuação acima de 80% acionava uma investigação automática de integridade acadêmica. Maria não estava sozinha. No intervalo de duas semanas, tive quatro conversas semelhantes. Cada vez, eu tinha certeza de que o aluno havia escrito o trabalho por conta própria. Cada vez, o detector dizia o contrário. E cada vez, eu não tinha evidência concreta para contestar o algoritmo além do meu julgamento profissional—o qual, me disseram, poderia ser "tendencioso" ou "desatualizado". Foi então que decidi parar de confiar nessas ferramentas e começar a testá-las. Eu queria saber: quão precisos são realmente os detectores de escrita por IA? Não de acordo com seus materiais de marketing ou estudos de caso selecionados, mas em condições do mundo real com amostras de escrita diversas. Quais são suas taxas de falsos positivos? Suas taxas de falsos negativos? Eles apresentam desempenho diferente em gêneros, estilos de escrita ou grupos demográficos? Projetei um estudo que responderia a essas perguntas. Recrutei colegas de outros departamentos, coletei amostras de fontes de domínio público, gerei textos de IA usando múltiplos modelos e criei um protocolo de testes cegos. Então, passei tudo por cinco das ferramentas de detecção de IA mais populares do mercado. Os resultados foram condenatórios.

Como Estruturei o Experimento

Passei duas semanas projetando a metodologia antes de analisar uma única amostra. Isso não seria uma comparação casual—precisava suportar o mesmo escrutínio que aplicaria a qualquer pesquisa acadêmica. Primeiro, assemblei 127 amostras de texto em cinco gêneros distintos: ensaios acadêmicos, ficção criativa, escrita técnica, jornalismo e narrativas pessoais. Cada gênero tinha cerca de 25 amostras, divididas igualmente entre conteúdo escrito por humanos e gerado por IA. Para amostras escritas por humanos, usei uma mistura de fontes. Eu coletei textos históricos do Projeto Gutenberg (incluindo trechos da Constituição dos EUA, Shakespeare e Virginia Woolf). Reuni ensaios de alunos de semestres anteriores—com permissão e todas as informações identificadoras removidas. Entrevistei amigos jornalistas que contribuíram com artigos publicados. Até escrevi várias amostras eu mesmo em diferentes estilos. Para amostras geradas por IA, usei quatro modelos diferentes: GPT-3.5, GPT-4, Claude e um modelo de código aberto. Variei as solicitações para produzir diferentes estilos de escrita, desde prosa acadêmica formal até postagens casuais em blogs. Também criei amostras "híbridas" onde editei a saída da IA significativamente, adicionando minhas próprias frases e reestruturando parágrafos—porque é isso que os alunos realmente fazem. Então veio a parte crucial: aleatorizei tudo. Cada amostra recebeu um número de código. Eu criei uma chave mestra que apenas eu poderia acessar. Mesmo eu não sabia qual amostra era qual quando realizei os testes—pedi para meu assistente de pesquisa lidar com as submissões reais para evitar vieses inconscientes. Selecionei cinco ferramentas de detecção de IA com base em popularidade e adoção institucional: GPTZero, Originality.AI, Copyleaks, o detector de IA do Writer.com e o recurso de detecção de IA do Turnitin. Passei cada uma das 127 amostras por todos os cinco detectores, registrando suas pontuações de confiança e classificações binárias (IA ou humano). Os testes levaram seis dias. A análise levou mais uma semana. E o que encontrei me fez questionar se essas ferramentas deveriam ser usadas.

O Dia em que Assisti um Detector Sinalizar Shakespeare como IA

No terceiro dia de testes, algo aconteceu que ainda penso. Eu estava executando a amostra #47 através dos detectores—um trecho que eu havia retirado de "Hamlet" que eu modernizei ligeiramente para evitar padrões óbvios de linguagem arcaica. Não uma reescrita, apenas trocando "thou" por "you" e ajustando algumas formas verbais. O GPTZero voltou com uma probabilidade de IA de 87%. Eu fiquei ali olhando para a tela, tentando processar o que estava vendo. Este era Shakespeare. Aparentemente o escritor mais estudado da língua inglesa. Um homem que morreu em 1616, quatro séculos antes de redes neurais existirem. E o algoritmo estava confiante—não hesitante, mas confiante—de que suas palavras eram geradas por máquina. Eu fiz novamente, pensando que tinha cometido um erro. Mesmo resultado. Então, tentei o texto original, não modernizado. A pontuação caiu para 23%. Aparentemente, padrões de linguagem arcaica sinalizam "humano" para esses detectores, mas versões contemporâneas das mesmas ideias sinalizam "IA". Foi então que compreendi o problema fundamental: essas ferramentas não estão detectando IA. Elas estão detectando padrões que foram treinadas para associar à IA, que muitas vezes se sobrepõem a padrões encontrados em escrita humana clara e bem estruturada. Continuei testando. A amostra #52 era um parágrafo do preâmbulo da Constituição dos EUA. O Originality.AI sinalizou como 76% provável que fosse gerado por IA. A amostra #61 era um trecho de um manual técnico de um guia de software de 1987—escrito décadas antes da IA moderna existir. Três dos cinco detectores o chamaram de IA. Mas aqui está o que realmente me incomodou: A amostra #73 era um ensaio de 500 palavras que eu havia gerado usando o GPT-4 com mínima edição. Eu pedi para que escrevesse sobre mudanças climáticas de um estilo direto e informativo. Todos os cinco detectores marcaram como escrito por humano. A pontuação de probabilidade de IA mais alta foi de 31%. O padrão se tornou claro: essas ferramentas estavam sistematicamente erradas de maneiras previsíveis. Eles sinalizaram a escrita humana formal e bem organizada como IA. Eles perderam o texto gerado por IA que era casual ou continha pequenas imperfeições. E não tinham uma lógica consistente—o que um detector sinalizou, outro aprovou. Eu pensei em Maria, sentada no meu escritório com lágrimas nos olhos. Quantos outros estudantes foram falsamente acusados porque escreveram muito bem? Quantos aprenderam que uma escrita clara e organizada era de alguma forma suspeita?

Os Números: Uma Análise da Precisão por Detector e Gênero

Após completar todos os 635 testes individuais (127 amostras × 5 detectores), compilei os resultados em um conjunto de dados abrangente. Aqui está o que os números revelaram:

Detector	Precisão Geral	Taxa de Falsos Positivos	Taxa de Falsos Negativos	Acadêmico	Criativo	Técnico	Jornalismo	Pessoal
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
Média	52%	43%	45%	54%	64%	46%	59%	56%

Deixe-me detalhar o que esses números significam em termos práticos. A precisão geral de 52% significa que esses detectores são mal melhores do que a chance aleatória. Se você jogasse uma moeda para decidir se um texto foi gerado por IA ou escrito por humano, você estaria certo cerca de 50% das vezes. Essas ferramentas caras e supostamente sofisticadas estão se saindo apenas marginalmente melhor que isso. A taxa de falsos positivos—o percentual de texto escrito por humanos incorretamente sinalizado como IA—teve uma média de 43%. Isso significa que quase metade de toda escrita genuinamente humana foi mal identificada. Em um contexto educacional, isso é catastrófico. Isso significa que para cada 100 alunos que submetem trabalho original, 43 serão falsamente acusados de usar IA. A taxa de falsos negativos—texto gerado por IA que passou despercebido—teve uma média de 45%. Isso significa que essas ferramentas estão perdendo quase metade do conteúdo gerado por IA real. Se o objetivo é pegar alunos usando IA, esses detectores também estão falhando nisso. A divisão por gênero revelou padrões ainda mais preocupantes. A escrita técnica teve a menor precisão com 46%, significando que esses detectores são essencialmente inúteis para campos como ciência da computação, engenharia ou matemática. A escrita criativa teve o melhor desempenho com 64%, mas ainda assim isso é uma nota D—pouco aceitável para ferramentas que tomam decisões de alto risco sobre a integridade acadêmica. A escrita acadêmica—o principal caso de uso para essas ferramentas em ambientes educacionais—alcançou apenas 54% de precisão. Este é o gênero onde falsas acusações têm as consequências mais sérias, e os detectores estão apenas um pouco acima da chance. Eu também percebi que nenhum detector individual superou consistentemente os outros. O GPTZero teve a maior precisão geral com 61%, mas também a maior taxa de falsos positivos com 42%. O Copyleaks foi o pior desempenho geral com 48% de precisão, essencialmente não melhor que um palpite aleatório. Talvez o mais preocupante: quando olhei para amostras em que todos os cinco detectores concordaram, eles estavam errados 34% das vezes. Mesmo o consenso não garantia precisão.

O que as Empresas de Detector Não Te Contam

Depois de publicar meus achados iniciais em um informativo para o corpo docente, recebi e-mails de três das cinco empresas cujas ferramentas eu testei. Duas ofereceram "ajudar-me a entender" melhor sua tecnologia. Uma ameaçou ação legal se eu publicasse os resultados de forma mais ampla, alegando que minha metodologia era falha e minhas conclusões difamatórias. Essa resposta me disse tudo que eu precisava saber. Comecei a investigar como essas empresas comercializam seus produtos em comparação com o que realmente entregam. O desconforto era impressionante.

"O nosso modelo de detecção de IA alcança 99% de precisão com menos de 0,2% de falsos positivos," afirmou uma empresa.