I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [Español]

# Probé 5 Detectores de Escritura de IA — Aquí Está Cuán Frecuentemente Están Equivocados 127 muestras, 5 detectores, 5 géneros. Precisión promedio: 52%. Un detector marcó la Constitución de EE.UU. como generada por IA. Otro no detectó el 100% de la salida de GPT-4. No es un error tipográfico. Después de pasar tres semanas realizando pruebas a ciegas en cada herramienta principal de detección de IA que pude encontrar, descubrí algo que debería preocupar a cualquiera que confíe en estos sistemas: son apenas mejores que lanzar una moneda. Soy profesor de escritura en una universidad de tamaño mediano y, como muchos de mis colegas, he estado lidiando con la pregunta del trabajo de estudiantes generado por IA desde que se lanzó ChatGPT. La administración compró licencias para dos detectores de IA comerciales. Los jefes de departamento enviaron correos electrónicos sobre "mantener la integridad académica". Y vi como el pánico se propagaba a través de los salones de profesores como un incendio forestal. Pero algo no me parecía bien. Había visto demasiadas declaraciones confiadas—"Esto es definitivamente IA"—seguido de retractaciones tímidas. Había escuchado historias de estudiantes en lágrimas, su trabajo original marcado como fraudulento. Así que decidí realizar una prueba adecuada, del tipo que esperaría de mis propios estudiantes: controlada, documentada y reproducible. Lo que encontré fue peor de lo que esperaba. Estas herramientas no solo son poco confiables, son peligrosamente poco confiables de maneras que podrían destruir carreras estudiantiles y erosionar la confianza en las instituciones educativas. Y las empresas que las venden lo saben.

Por Qué Decidí Probar los Detectores de IA Yo Mismo

El punto de quiebre llegó durante las horas de oficina en una tarde de martes en octubre. Una estudiante a la que llamaré María se sentó frente a mi escritorio, con las manos temblando mientras sostenía un informe impreso del sistema de detección de IA de nuestra universidad. La herramienta había marcado su ensayo personal—una pieza cruda y vulnerable sobre cuidar a su abuela con demencia—como "98% probable que sea generado por IA." Había leído ese ensayo. Lo había visto evolucionar a través de tres borradores. Había visto a María luchar con el peso emocional de poner esos recuerdos en papel. No había un universo en el que ese ensayo fuera escrito por IA. Pero la herramienta de detección no estaba de acuerdo. Y de acuerdo con la nueva política de nuestro departamento, una puntuación por encima del 80% activaba una investigación automática de integridad académica. María no estaba sola. En el transcurso de dos semanas, tuve cuatro conversaciones similares. Cada vez, estaba seguro de que el estudiante había escrito el trabajo por sí mismo. Cada vez, el detector decía lo contrario. Y cada vez, no tenía evidencia concreta para anular el algoritmo más allá de mi juicio profesional—el cual, se me dijo, podría ser "parcial" o "desactualizado." Fue entonces cuando decidí dejar de confiar en estas herramientas y comenzar a probarlas. Quería saber: ¿Qué tan precisos son realmente los detectores de escritura de IA? No de acuerdo con sus materiales de marketing o estudios de caso seleccionados, sino en condiciones del mundo real con muestras de escritura diversas. ¿Cuáles son sus tasas de falsos positivos? ¿Sus tasas de falsos negativos? ¿Funcionan de manera diferente a través de géneros, estilos de escritura o grupos demográficos? Diseñé un estudio que respondería a estas preguntas. Recluté a colegas de otros departamentos, extraje muestras de fuentes de dominio público, generé texto de IA usando múltiples modelos y creé un protocolo de prueba a ciegas. Luego, ejecuté todo a través de cinco de las herramientas de detección de IA más populares en el mercado. Los resultados fueron devastadores.

Cómo Estructuré el Experimento

Pasé dos semanas diseñando la metodología antes de analizar una sola muestra. No iba a ser una comparación casual—tenía que resistir el mismo escrutinio que aplicaría a cualquier investigación académica. Primero, ensamblé 127 muestras de texto a través de cinco géneros distintos: ensayos académicos, ficción creativa, escritura técnica, periodismo y narrativas personales. Cada género tenía aproximadamente 25 muestras, divididas equitativamente entre contenido escrito por humanos y generado por IA. Para las muestras escritas por humanos, usé una mezcla de fuentes. Extraje de Project Gutenberg para textos históricos (incluidos fragmentos de la Constitución de EE.UU., Shakespeare y Virginia Woolf). Recopilé ensayos de estudiantes de semestres anteriores—con permiso y toda la información identificativa eliminada. Me comuniqué con amigos periodistas que contribuyeron con artículos publicados. Incluso escribí varias muestras yo mismo en diferentes estilos. Para las muestras generadas por IA, utilicé cuatro modelos diferentes: GPT-3.5, GPT-4, Claude y un modelo de código abierto. Varié los prompts para producir diferentes estilos de escritura, desde prosa académica formal hasta publicaciones de blog informales. También creé muestras "híbridas" donde edité la salida de IA significativamente, añadiendo mis propias oraciones y reestructurando párrafos—porque eso es lo que realmente hacen los estudiantes. Luego llegó la parte crucial: aleatoricé todo. Cada muestra recibió un número de código. Creé una clave maestra a la que solo yo podía acceder. Ni siquiera yo sabía qué muestra era cuál cuando hice las pruebas—hice que mi asistente de investigación manejara las presentaciones reales para evitar sesgo inconsciente. Seleccioné cinco herramientas de detección de IA basadas en popularidad y adopción institucional: GPTZero, Originality.AI, Copyleaks, el detector de IA de Writer.com y la función de detección de IA de Turnitin. Pasé cada una de las 127 muestras por los cinco detectores, registrando sus puntajes de confianza y clasificaciones binarias (IA o humano). Las pruebas tomaron seis días. El análisis tomó otra semana. Y lo que encontré me hizo cuestionar si estas herramientas deberían usarse en absoluto.

El Día que Vi a un Detector Marcar a Shakespeare como IA

El día tres de las pruebas, ocurrió algo en lo que todavía pienso. Estaba ejecutando la muestra #47 a través de los detectores—un pasaje que había extraído de "Hamlet" que había modernizado ligeramente para evitar patrones obvios de lenguaje arcaico. No era una reescritura, solo cambié "tú" por "usted" y ajusté algunas formas verbales. GPTZero volvió con una probabilidad de IA del 87%. Me senté allí mirando la pantalla, tratando de procesar lo que estaba viendo. Este era Shakespeare. Quizás el escritor más estudiado en el idioma inglés. Un hombre que murió en 1616, cuatro siglos antes de que existieran las redes neuronales. Y el algoritmo estaba seguro—no tentativo, sino seguro—de que sus palabras eran generadas por máquina. Lo ejecuté de nuevo, pensando que había cometido un error. Misma resultado. Luego probé el texto original, no modernizado. La puntuación cayó al 23%. Aparentemente, los patrones de lenguaje arcaico señalan "humano" para estos detectores, pero las versiones en inglés contemporáneo de las mismas ideas señalan "IA." Fue entonces cuando entendí el problema fundamental: estas herramientas no están detectando IA. Están detectando patrones que han sido entrenados para asociar con IA, que a menudo se superponen con patrones encontrados en escritos humanos claros y bien estructurados. Seguí probando. La muestra #52 era un párrafo del preámbulo de la Constitución de EE.UU. Originality.AI la marcó como 76% probable que fuera generada por IA. La muestra #61 era un extracto de un manual técnico de una guía de software de 1987—escrita décadas antes de que existiera la IA moderna. Tres de los cinco detectores la llamaron IA. Pero aquí está lo que realmente me preocupó: la muestra #73 era un ensayo de 500 palabras que había generado usando GPT-4 con una edición mínima. Le pedí que escribiera sobre el cambio climático en un estilo directo e informativo. Los cinco detectores lo marcaron como escrito por humanos. La puntuación más alta de probabilidad de IA fue del 31%. El patrón se hizo claro: estas herramientas estaban sistemáticamente equivocadas de maneras predecibles. Marcaban la escritura humana formal y bien organizada como IA. Perdían el texto generado por IA que era casual o contenía imperfecciones menores. Y no tenían una lógica consistente—lo que un detector marcaba, otro lo aprobaba. Pensé en María, sentada en mi oficina con lágrimas en los ojos. ¿Cuántos otros estudiantes habían sido acusados falsamente porque escribían demasiado bien? ¿Cuántos habían aprendido que escribir de manera clara y organizada era de alguna manera sospechoso?

Los Números: Un Desglose de Precisión por Detector y Género

Después de completar todas las 635 pruebas individuales (127 muestras × 5 detectores), compilé los resultados en un conjunto de datos comprensivo. Aquí está lo que revelan los números:

Detector	Precisión General	Tasa de Falsos Positivos	Tasa de Falsos Negativos	Académico	Creativo	Técnico	Periodismo	Personal
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
Promedio	52%	43%	45%	54%	64%	46%	59%	56%

Déjame desglosar lo que significan estos números en términos prácticos. La precisión general del 52% significa que estos detectores son apenas mejores que el azar. Si lanzaras una moneda para decidir si un texto fue generado por IA o escrito por humanos, acertarías aproximadamente el 50% de las veces. Estas herramientas caras, supuestamente sofisticadas, están funcionando solo marginalmente mejor que eso. La tasa de falsos positivos—el porcentaje de texto escrito por humanos incorrectamente marcado como IA—promedió el 43%. Eso significa que casi la mitad de toda la escritura humana genuina fue mal identificada. En un contexto educativo, esto es catastrófico. Significa que por cada 100 estudiantes que presentan trabajos originales, 43 serán acusados erróneamente de usar IA. La tasa de falsos negativos—texto generado por IA que pasó desapercibido—promedió el 45%. Esto significa que estas herramientas están perdiendo casi la mitad del contenido realmente generado por IA. Si el objetivo es atrapar a los estudiantes usando IA, estos detectores también están fallando en eso. El desglose por géneros reveló patrones aún más preocupantes. La escritura técnica tuvo la menor precisión con un 46%, lo que significa que estos detectores son esencialmente inútiles para campos como informática, ingeniería o matemáticas. La escritura creativa tuvo el mejor desempeño con un 64%, pero eso sigue siendo un grado D—difícilmente aceptable para herramientas que toman decisiones críticas sobre la integridad académica. La escritura académica—el caso de uso principal para estas herramientas en entornos educativos—logró solo un 54% de precisión. Este es el género donde las acusaciones falsas tienen las consecuencias más graves, y los detectores son apenas mejores que el azar. También noté que ningún detector individual superó consistentemente a los demás. GPTZero tuvo la mayor precisión general con un 61%, pero también la mayor tasa de falsos positivos con un 42%. Copyleaks fue el peor rendimiento general con un 48% de precisión, esencialmente no mejor que adivinar al azar. Quizás lo más preocupante: cuando miré las muestras donde los cinco detectores coincidieron, estaban equivocados el 34% del tiempo. Incluso el consenso no garantizaba precisión.

Lo Que las Empresas de Detectores No Te Dicen

Después de publicar mis hallazgos iniciales en un boletín para profesores, recibí correos electrónicos de tres de las cinco empresas cuyos herramientas había probado. Dos ofrecieron "ayudarme a entender" mejor su tecnología. Una amenazó con acciones legales si publicaba los resultados más ampliamente, alegando que mi metodología estaba defectuosa y mis conclusiones eran difamatorias. Esa respuesta me dijo todo lo que necesitaba saber. Comencé a indagar sobre cómo estas empresas comercializan sus productos frente a lo que realmente ofrecen. La desconexión era asombrosa.

"Nuestro modelo de detección de IA logra un 99% de precisión con menos del 0.2% de falsos positivos," afirmaba un comercial.