Pourquoi j'ai décidé de tester les détecteurs d'IA moi-même
Le point de rupture est survenu lors des heures de bureau un mardi après-midi d'octobre. Une étudiante que j'appellerai Maria était assise en face de mon bureau, les mains tremblantes alors qu'elle tenait un rapport imprimé provenant du système de détection de l'IA de notre université. L'outil avait signalé son essai personnel - un texte brut et vulnérable sur le soin de sa grand-mère atteinte de démence - comme "98 % susceptible d'être généré par une IA". J'avais lu cet essai. J'avais vu son évolution à travers trois brouillons. J'avais vu Maria lutter avec le poids émotionnel de mettre ces souvenirs sur papier. Il n'y avait pas d'univers dans lequel cet essai avait été écrit par une IA. Mais l'outil de détection n'était pas d'accord. Et selon la nouvelle politique de notre département, un score supérieur à 80 % déclenchait une enquête automatique sur l'intégrité académique. Maria n'était pas seule. En l'espace de deux semaines, j'ai eu quatre conversations similaires. Chaque fois, j'étais certain que l'étudiant avait écrit le travail lui-même. Chaque fois, le détecteur a dit le contraire. Et chaque fois, je n'avais aucune preuve concrète pour contrecarrer l'algorithme au-delà de mon jugement professionnel - ce qui, me disait-on, pourrait être "biaisé" ou "obsolète". C'est à ce moment-là que j'ai décidé d'arrêter de faire confiance à ces outils et de commencer à les tester. Je voulais savoir : quelle est la précision réelle des détecteurs d'écriture AI ? Pas selon leur matériel marketing ou leurs études de cas soigneusement choisies, mais dans des conditions réelles avec des échantillons d'écriture divers. Quel est leur taux de faux positifs ? Leur taux de faux négatifs ? Fonctionnent-ils différemment selon les genres, les styles d'écriture ou les groupes démographiques ? J'ai conçu une étude qui répondrait à ces questions. J'ai recruté des collègues d'autres départements, prélevé des échantillons de sources du domaine public, généré du texte d'IA en utilisant plusieurs modèles et créé un protocole de test à l'aveugle. Ensuite, j'ai passé tout cela à travers cinq des outils de détection d'IA les plus populaires sur le marché. Les résultats étaient accablants.Comment j'ai structuré l'expérience
J'ai passé deux semaines à concevoir la méthodologie avant d'analyser un seul échantillon. Ce ne serait pas une comparaison décontractée - cela devait résister au même examen que j'appliquerais à toute recherche académique. Tout d'abord, j'ai rassemblé 127 échantillons de texte à travers cinq genres distincts : essais académiques, fiction créative, écriture technique, journalisme et récits personnels. Chaque genre avait environ 25 échantillons, répartis également entre contenu écrit par des humains et contenu généré par l'IA. Pour les échantillons écrits par des humains, j'ai utilisé un mélange de sources. J'ai tiré de Project Gutenberg pour des textes historiques (y compris des extraits de la Constitution américaine, de Shakespeare et de Virginia Woolf). J'ai collecté des essais d'étudiants des semestres précédents - avec permission et toutes les informations identifiantes supprimées. J'ai contacté des amis journalistes qui ont contribué avec des articles publiés. J'ai même écrit plusieurs échantillons moi-même dans différents styles. Pour les échantillons générés par l'IA, j'ai utilisé quatre modèles différents : GPT-3.5, GPT-4, Claude et un modèle open-source. J'ai varié les invites pour produire différents styles d'écriture, allant de la prose académique formelle aux articles de blog décontractés. J'ai également créé des échantillons "hybrides" où j'ai modifié considérablement la sortie de l'IA, ajoutant mes propres phrases et restructurant des paragraphes - parce que c'est ce que font réellement les étudiants. Puis est venue la partie cruciale : j'ai tout randomisé. Chaque échantillon a reçu un numéro de code. J'ai créé une clé maîtresse à laquelle seul j'avais accès. Même moi, je ne savais pas quel échantillon était lequel lorsque j'ai effectué les tests - j'ai demandé à mon assistant de recherche de gérer les soumissions réelles pour éviter des biais inconscients. J'ai sélectionné cinq outils de détection d'IA en fonction de leur popularité et de leur adoption institutionnelle : GPTZero, Originality.AI, Copyleaks, le détecteur d'IA de Writer.com, et la fonctionnalité de détection d'IA de Turnitin. J'ai fait passer chacun des 127 échantillons à travers les cinq détecteurs, enregistrant leurs scores de confiance et leurs classifications binaires (IA ou humain). Les tests ont duré six jours. L'analyse a pris une semaine supplémentaire. Et ce que j'ai trouvé m'a amené à me demander si ces outils devraient être utilisés du tout.Le jour où j'ai vu un détecteur signaler Shakespeare comme IA
Au troisième jour de tests, quelque chose est arrivé auquel je pense encore. Je testais l'échantillon #47 à travers les détecteurs - un passage que j'avais extrait "Hamlet" que j'avais légèrement modernisé pour éviter des schémas de langage archaïques évidents. Pas une réécriture, juste échanger "thou" contre "you" et ajuster quelques formes verbales. GPTZero est revenu avec une probabilité de 87 % d'être de l'IA. Je suis resté là, fixant l'écran, essayant de traiter ce que je voyais. C'était Shakespeare. Enfin, l'écrivain le plus étudié de la langue anglaise. Un homme qui est mort en 1616, quatre siècles avant l'existence des réseaux neuronaux. Et l'algorithme était confiant - pas hésitant, mais confiant - que ses mots étaient générés par une machine. Je l'ai testé à nouveau, pensant que j'avais fait une erreur. Même résultat. Puis j'ai essayé le texte original, non modernisé. Le score a chuté à 23 %. Apparemment, les schémas de langage archaïques signalent "humain" à ces détecteurs, mais les versions contemporaines en anglais des mêmes idées signalent "IA". C'est alors que j'ai compris le problème fondamental : ces outils ne détectent pas l'IA. Ils détectent des schémas qu'ils ont été entraînés à associer à l'IA, qui chevauchent souvent les schémas trouvés dans une écriture humaine claire et bien structurée. J'ai continué à tester. L'échantillon #52 était un paragraphe du préambule de la Constitution américaine. Originality.AI l'a signalé comme étant à 76 % susceptible d'être généré par une IA. L'échantillon #61 était un extrait d'un manuel technique d'un guide logiciel de 1987 - écrit des décennies avant l'existence de l'IA moderne. Trois des cinq détecteurs l'ont qualifié d'IA. Mais voici ce qui me troublait vraiment : l'échantillon #73 était un essai de 500 mots que j'avais généré en utilisant GPT-4 avec un minimum de modifications. Je lui avais demandé d'écrire sur le changement climatique dans un style clair et informatif. Les cinq détecteurs l'ont marqué comme écrit par un humain. Le score de probabilité d'être IA le plus élevé était de 31 %. Le schéma est devenu clair : ces outils se trompaient systématiquement de manière prévisible. Ils ont signalé des écrits humains formels et bien organisés comme IA. Ils ont manqué des textes générés par de l'IA qui étaient décontractés ou contenaient de mineures imperfections. Et ils n'avaient aucune logique cohérente - ce qu'un détecteur a signalé, un autre a approuvé. J'ai pensé à Maria, assise dans mon bureau les yeux pleins de larmes. Combien d'autres étudiants avaient été faussement accusés parce qu'ils écrivaient trop bien ? Combien avaient appris que l'écriture claire et organisée était en quelque sorte suspecte ?Les chiffres : Un aperçu de la précision par détecteur et genre
Après avoir terminé tous les 635 tests individuels (127 échantillons × 5 détecteurs), j'ai compilé les résultats dans un ensemble de données complet. Voici ce que les chiffres ont révélé :| Détecteur | Précision globale | Taux de faux positifs | Taux de faux négatifs | Académique | Créatif | Technique | Journalisme | Personnel |
|---|---|---|---|---|---|---|---|---|
| GPTZero | 61% | 42% | 36% | 58% | 71% | 48% | 65% | 63% |
| Originality.AI | 54% | 38% | 54% | 52% | 61% | 44% | 58% | 55% |
| Copyleaks | 48% | 51% | 53% | 46% | 55% | 39% | 51% | 49% |
| Writer.com | 57% | 45% | 41% | 54% | 64% | 47% | 60% | 59% |
| Turnitin | 59% | 39% | 43% | 61% | 68% | 51% | 62% | 53% |
| Moyenne | 52% | 43% | 45% | 54% | 64% | 46% | 59% | 56% |
Ce que les entreprises de détection ne vous disent pas
Après avoir publié mes conclusions initiales dans une newsletter destinée au corps professoral, j'ai reçu des courriels de trois des cinq entreprises dont j'avais testé les outils. Deux ont proposé de "m'aider à mieux comprendre" leur technologie. Un a menacé d'une action en justice si je publiais les résultats de manière plus large, affirmant que ma méthodologie était défectueuse et que mes conclusions étaient diffamatoires. Cette réponse m'a tout dit. J'ai commencé à examiner comment ces entreprises commercialisent leurs produits par rapport à ce qu'elles livrent réellement. Le décalage était stupéfiant."Notre modèle de détection IA atteint 99 % de précision avec moins de 0,2 % de faux positifs", a déclaré une entreprise.