I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [Français]

# J'ai testé 5 détecteurs d'écriture AI - Voici à quelle fréquence ils se trompent 127 échantillons, 5 détecteurs, 5 genres. Précision moyenne : 52 %. Un détecteur a signalé la Constitution américaine comme générée par une IA. Un autre a manqué 100 % des sorties GPT-4. Ce n'est pas une faute de frappe. Après avoir passé trois semaines à effectuer des tests à l'aveugle sur tous les outils de détection AI majeurs que j'ai pu trouver, j'ai découvert quelque chose qui devrait concerner quiconque s'appuyant sur ces systèmes : ils ne sont guère meilleurs qu'un lancer de pièce. Je suis professeur d'écriture dans une université de taille moyenne, et comme beaucoup de mes collègues, j'ai lutté avec la question du travail étudiant généré par l'IA depuis le lancement de ChatGPT. L'administration a acheté des licences pour deux détecteurs d'IA commerciaux. Les chefs de département ont envoyé des courriels concernant "le maintien de l'intégrité académique". Et j'ai vu la panique se répandre à travers les salons des enseignants comme un feu de prairie. Mais quelque chose ne me paraissait pas correct. J'avais vu trop de déclarations confiantes - "C'est définitivement de l'IA" - suivies de rétractations timides. J'avais entendu des histoires d'étudiants en larmes, leur travail original signalé comme frauduleux. J'ai donc décidé de réaliser un test approprié, celui que j'attendrais de mes propres étudiants : contrôlé, documenté et reproductible. Ce que j'ai trouvé était pire que ce à quoi je m'attendais. Ces outils ne sont pas seulement peu fiables - ils sont dangereusement peu fiables de manière à pouvoir détruire les carrières des étudiants et saper la confiance dans les institutions éducatives. Et les entreprises qui les vendent le savent.

Pourquoi j'ai décidé de tester les détecteurs d'IA moi-même

Le point de rupture est survenu lors des heures de bureau un mardi après-midi d'octobre. Une étudiante que j'appellerai Maria était assise en face de mon bureau, les mains tremblantes alors qu'elle tenait un rapport imprimé provenant du système de détection de l'IA de notre université. L'outil avait signalé son essai personnel - un texte brut et vulnérable sur le soin de sa grand-mère atteinte de démence - comme "98 % susceptible d'être généré par une IA". J'avais lu cet essai. J'avais vu son évolution à travers trois brouillons. J'avais vu Maria lutter avec le poids émotionnel de mettre ces souvenirs sur papier. Il n'y avait pas d'univers dans lequel cet essai avait été écrit par une IA. Mais l'outil de détection n'était pas d'accord. Et selon la nouvelle politique de notre département, un score supérieur à 80 % déclenchait une enquête automatique sur l'intégrité académique. Maria n'était pas seule. En l'espace de deux semaines, j'ai eu quatre conversations similaires. Chaque fois, j'étais certain que l'étudiant avait écrit le travail lui-même. Chaque fois, le détecteur a dit le contraire. Et chaque fois, je n'avais aucune preuve concrète pour contrecarrer l'algorithme au-delà de mon jugement professionnel - ce qui, me disait-on, pourrait être "biaisé" ou "obsolète". C'est à ce moment-là que j'ai décidé d'arrêter de faire confiance à ces outils et de commencer à les tester. Je voulais savoir : quelle est la précision réelle des détecteurs d'écriture AI ? Pas selon leur matériel marketing ou leurs études de cas soigneusement choisies, mais dans des conditions réelles avec des échantillons d'écriture divers. Quel est leur taux de faux positifs ? Leur taux de faux négatifs ? Fonctionnent-ils différemment selon les genres, les styles d'écriture ou les groupes démographiques ? J'ai conçu une étude qui répondrait à ces questions. J'ai recruté des collègues d'autres départements, prélevé des échantillons de sources du domaine public, généré du texte d'IA en utilisant plusieurs modèles et créé un protocole de test à l'aveugle. Ensuite, j'ai passé tout cela à travers cinq des outils de détection d'IA les plus populaires sur le marché. Les résultats étaient accablants.

Comment j'ai structuré l'expérience

J'ai passé deux semaines à concevoir la méthodologie avant d'analyser un seul échantillon. Ce ne serait pas une comparaison décontractée - cela devait résister au même examen que j'appliquerais à toute recherche académique. Tout d'abord, j'ai rassemblé 127 échantillons de texte à travers cinq genres distincts : essais académiques, fiction créative, écriture technique, journalisme et récits personnels. Chaque genre avait environ 25 échantillons, répartis également entre contenu écrit par des humains et contenu généré par l'IA. Pour les échantillons écrits par des humains, j'ai utilisé un mélange de sources. J'ai tiré de Project Gutenberg pour des textes historiques (y compris des extraits de la Constitution américaine, de Shakespeare et de Virginia Woolf). J'ai collecté des essais d'étudiants des semestres précédents - avec permission et toutes les informations identifiantes supprimées. J'ai contacté des amis journalistes qui ont contribué avec des articles publiés. J'ai même écrit plusieurs échantillons moi-même dans différents styles. Pour les échantillons générés par l'IA, j'ai utilisé quatre modèles différents : GPT-3.5, GPT-4, Claude et un modèle open-source. J'ai varié les invites pour produire différents styles d'écriture, allant de la prose académique formelle aux articles de blog décontractés. J'ai également créé des échantillons "hybrides" où j'ai modifié considérablement la sortie de l'IA, ajoutant mes propres phrases et restructurant des paragraphes - parce que c'est ce que font réellement les étudiants. Puis est venue la partie cruciale : j'ai tout randomisé. Chaque échantillon a reçu un numéro de code. J'ai créé une clé maîtresse à laquelle seul j'avais accès. Même moi, je ne savais pas quel échantillon était lequel lorsque j'ai effectué les tests - j'ai demandé à mon assistant de recherche de gérer les soumissions réelles pour éviter des biais inconscients. J'ai sélectionné cinq outils de détection d'IA en fonction de leur popularité et de leur adoption institutionnelle : GPTZero, Originality.AI, Copyleaks, le détecteur d'IA de Writer.com, et la fonctionnalité de détection d'IA de Turnitin. J'ai fait passer chacun des 127 échantillons à travers les cinq détecteurs, enregistrant leurs scores de confiance et leurs classifications binaires (IA ou humain). Les tests ont duré six jours. L'analyse a pris une semaine supplémentaire. Et ce que j'ai trouvé m'a amené à me demander si ces outils devraient être utilisés du tout.

Le jour où j'ai vu un détecteur signaler Shakespeare comme IA

Au troisième jour de tests, quelque chose est arrivé auquel je pense encore. Je testais l'échantillon #47 à travers les détecteurs - un passage que j'avais extrait "Hamlet" que j'avais légèrement modernisé pour éviter des schémas de langage archaïques évidents. Pas une réécriture, juste échanger "thou" contre "you" et ajuster quelques formes verbales. GPTZero est revenu avec une probabilité de 87 % d'être de l'IA. Je suis resté là, fixant l'écran, essayant de traiter ce que je voyais. C'était Shakespeare. Enfin, l'écrivain le plus étudié de la langue anglaise. Un homme qui est mort en 1616, quatre siècles avant l'existence des réseaux neuronaux. Et l'algorithme était confiant - pas hésitant, mais confiant - que ses mots étaient générés par une machine. Je l'ai testé à nouveau, pensant que j'avais fait une erreur. Même résultat. Puis j'ai essayé le texte original, non modernisé. Le score a chuté à 23 %. Apparemment, les schémas de langage archaïques signalent "humain" à ces détecteurs, mais les versions contemporaines en anglais des mêmes idées signalent "IA". C'est alors que j'ai compris le problème fondamental : ces outils ne détectent pas l'IA. Ils détectent des schémas qu'ils ont été entraînés à associer à l'IA, qui chevauchent souvent les schémas trouvés dans une écriture humaine claire et bien structurée. J'ai continué à tester. L'échantillon #52 était un paragraphe du préambule de la Constitution américaine. Originality.AI l'a signalé comme étant à 76 % susceptible d'être généré par une IA. L'échantillon #61 était un extrait d'un manuel technique d'un guide logiciel de 1987 - écrit des décennies avant l'existence de l'IA moderne. Trois des cinq détecteurs l'ont qualifié d'IA. Mais voici ce qui me troublait vraiment : l'échantillon #73 était un essai de 500 mots que j'avais généré en utilisant GPT-4 avec un minimum de modifications. Je lui avais demandé d'écrire sur le changement climatique dans un style clair et informatif. Les cinq détecteurs l'ont marqué comme écrit par un humain. Le score de probabilité d'être IA le plus élevé était de 31 %. Le schéma est devenu clair : ces outils se trompaient systématiquement de manière prévisible. Ils ont signalé des écrits humains formels et bien organisés comme IA. Ils ont manqué des textes générés par de l'IA qui étaient décontractés ou contenaient de mineures imperfections. Et ils n'avaient aucune logique cohérente - ce qu'un détecteur a signalé, un autre a approuvé. J'ai pensé à Maria, assise dans mon bureau les yeux pleins de larmes. Combien d'autres étudiants avaient été faussement accusés parce qu'ils écrivaient trop bien ? Combien avaient appris que l'écriture claire et organisée était en quelque sorte suspecte ?

Les chiffres : Un aperçu de la précision par détecteur et genre

Après avoir terminé tous les 635 tests individuels (127 échantillons × 5 détecteurs), j'ai compilé les résultats dans un ensemble de données complet. Voici ce que les chiffres ont révélé :

Détecteur	Précision globale	Taux de faux positifs	Taux de faux négatifs	Académique	Créatif	Technique	Journalisme	Personnel
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
Moyenne	52%	43%	45%	54%	64%	46%	59%	56%

Laissez-moi expliquer ce que ces chiffres signifient en termes pratiques. La précision globale de 52 % signifie que ces détecteurs ne sont guère meilleurs qu'un tirage au sort. Si vous lanciez une pièce pour décider si un texte était généré par une IA ou écrit par un humain, vous auriez raison environ 50 % du temps. Ces outils coûteux, censément sophistiqués, ne fonctionnent qu’un peu mieux que cela. Le taux de faux positifs - le pourcentage de textes écrits par des humains incorrectement signalés comme IA - est en moyenne de 43 %. Cela signifie que près de la moitié de tous les écrits humains authentiques ont été mal identifiés. Dans un contexte éducatif, c'est catastrophique. Cela signifie que pour chaque 100 étudiants qui soumettent un travail original, 43 seront faussement accusés d'utiliser une IA. Le taux de faux négatifs - textes générés par l'IA qui ont échappé à la détection - est en moyenne de 45 %. Cela signifie que ces outils manquent près de la moitié du contenu généré par l'IA réel. Si l'objectif est d'attraper les étudiants utilisant l'IA, ces détecteurs échouent également à cela. La répartition par genre a révélé des schémas encore plus troublants. L'écriture technique avait la précision la plus basse à 46 %, ce qui signifie que ces détecteurs sont essentiellement inutiles pour des domaines comme l'informatique, l'ingénierie ou les mathématiques. L'écriture créative a donné les meilleurs résultats avec 64 %, mais c'est encore une note de D - à peine acceptable pour des outils prenant des décisions de grande envergure concernant l'intégrité académique. L'écriture académique - le principal cas d'utilisation de ces outils dans des contextes éducatifs - n'a atteint qu'une précision de 54 %. C'est le genre où les accusations fausses ont les conséquences les plus graves, et les détecteurs ne sont guère meilleurs que le hasard. J'ai également remarqué qu'aucun détecteur unique ne surpassait systématiquement les autres. GPTZero avait la précision globale la plus élevée à 61 %, mais aussi le taux de faux positif le plus élevé à 42 %. Copyleaks était le moins performant avec seulement 48 % de précision, donc pas vraiment mieux qu'un tirage aléatoire. Peut-être le plus préoccupant : lorsque j'ai examiné les échantillons où les cinq détecteurs étaient d'accord, ils se trompaient 34 % du temps. Même le consensus ne garantissait pas la précision.

Ce que les entreprises de détection ne vous disent pas

Après avoir publié mes conclusions initiales dans une newsletter destinée au corps professoral, j'ai reçu des courriels de trois des cinq entreprises dont j'avais testé les outils. Deux ont proposé de "m'aider à mieux comprendre" leur technologie. Un a menacé d'une action en justice si je publiais les résultats de manière plus large, affirmant que ma méthodologie était défectueuse et que mes conclusions étaient diffamatoires. Cette réponse m'a tout dit. J'ai commencé à examiner comment ces entreprises commercialisent leurs produits par rapport à ce qu'elles livrent réellement. Le décalage était stupéfiant.

"Notre modèle de détection IA atteint 99 % de précision avec moins de 0,2 % de faux positifs", a déclaré une entreprise.