Warum ich beschlossen habe, KI-Detektoren selbst zu testen
Der Wendepunkt kam während der Sprechstunde an einem Dienstag Nachmittag im Oktober. Eine Studentin, die ich Maria nennen werde, saß mir gegenüber, ihre Hände zitterten, während sie einen ausgedruckten Bericht aus dem KI-Detektionssystem unserer Universität hielt. Das Tool hatte ihren persönlichen Aufsatz – ein rohes, verletzbares Stück über die Betreuung ihrer Großmutter mit Demenz – als „98% wahrscheinlich KI-generiert“ markiert. Ich hatte diesen Aufsatz gelesen. Ich hatte gesehen, wie er sich durch drei Entwürfe entwickelte. Ich hatte mitverfolgt, wie Maria mit dem emotionalen Gewicht kämpfte, diese Erinnerungen zu Papier zu bringen. Es gab kein Universum, in dem dieser Aufsatz von KI geschrieben wurde. Aber das Detektionswerkzeug war anderer Meinung. Und laut der neuen Politik unserer Abteilung löste ein Wert über 80% eine automatische Untersuchung der akademischen Integrität aus. Maria war nicht allein. Im Laufe von zwei Wochen hatte ich vier ähnliche Gespräche. Jedes Mal war ich mir sicher, dass der Student die Arbeit selbst geschrieben hatte. Jedes Mal sagte der Detektor etwas anderes. Und jedes Mal hatte ich keine konkreten Beweise, um den Algorithmus über mein professionelles Urteil hinaus zu widerlegen – das mir gesagt wurde, könnte „voreingenommen“ oder „veraltet“ sein. Da beschloss ich, diesen Werkzeugen nicht mehr zu vertrauen und begann, sie zu testen. Ich wollte wissen: Wie genau sind KI-Schreibdetektoren wirklich? Nicht nach ihren Marketingmaterialien oder ausgewählten Fallstudien, sondern unter realen Bedingungen mit vielfältigen Schreibproben. Wie sind ihre falsch-positive Raten? Ihre falsch-negativen Raten? Arbeiten sie unterschiedlich über Genres, Schreibstile oder demografische Gruppen hinweg? Ich entwarf eine Studie, die diese Fragen beantwortete. Ich rekrutierte Kollegen aus anderen Abteilungen, zog Proben aus gemeinfreien Quellen, generierte KI-Text mit mehreren Modellen und erstellte ein Protokoll für blinde Tests. Dann ließ ich alles durch fünf der beliebtesten KI-Detektionstools auf dem Markt laufen. Die Ergebnisse waren verheerend.Wie ich das Experiment strukturierte
Ich verbrachte zwei Wochen mit der Entwicklung der Methodologie, bevor ich eine einzige Probe analysierte. Das war kein lässiger Vergleich – es musste der gleichen Prüfung standhalten, die ich auf jede akademische Forschung anwenden würde. Zuerst stellte ich 127 Textproben aus fünf verschiedenen Genres zusammen: akademische Essays, kreative Fiktion, technische Texte, Journalismus und persönliche Narrative. Jedes Genre hatte etwa 25 Proben, gleichmäßig auf menschlich geschriebene und KI-generierte Inhalte verteilt. Für menschlich geschriebene Proben verwendete ich eine Mischung aus Quellen. Ich entnahm Texte von Project Gutenberg für historische Texte (einschließlich Auszügen aus der US-Verfassung, Shakespeare und Virginia Woolf). Ich sammelte Studentenaufsätze aus früheren Semestern – mit Erlaubnis und allen Identifikationsinformationen entfernt. Ich wandte mich an Journalist*innen, die veröffentlichte Artikel beigetragen hatten. Ich schrieb sogar mehrere Proben selbst in verschiedenen Stilen. Für KI-generierte Proben verwendete ich vier verschiedene Modelle: GPT-3.5, GPT-4, Claude und ein Open-Source-Modell. Ich variierte die Aufforderungen, um unterschiedliche Schreibstile zu erzeugen, von formeller akademischer Prosa bis hin zu lässigen Blogbeiträgen. Ich erstellte auch „Hybride“ Proben, bei denen ich die KI-Ausgaben erheblich bearbeitete, indem ich meine eigenen Sätze hinzufügte und Absätze umstrukturierte – denn so verhalten sich Studierende tatsächlich. Dann kam der entscheidende Teil: Ich randomisierte alles. Jede Probe erhielt eine Code-Nummer. Ich erstellte einen Hauptschlüssel, auf den nur ich zugreifen konnte. Selbst ich wusste nicht, welche Probe welche war, als ich die Tests durchführte – ich ließ meinen Forschungsassistenten die tatsächlichen Einreichungen handhaben, um unbewusste Voreingenommenheit zu verhindern. Ich wählte fünf KI-Detektionstools basierend auf Popularität und institutioneller Akzeptanz aus: GPTZero, Originality.AI, Copyleaks, Writer.com's KI-Detektor und die KI-Detektionsfunktion von Turnitin. Ich ließ jede der 127 Proben durch alle fünf Detektoren laufen und zeichnete deren Vertrauenswerte und binäre Klassifikationen (KI oder Mensch) auf. Das Testen dauerte sechs Tage. Die Analyse benötigte eine weitere Woche. Und was ich fand, ließ mich hinterfragen, ob diese Werkzeuge überhaupt verwendet werden sollten.Der Tag, an dem ich sah, wie ein Detektor Shakespeare als KI markierte
Am dritten Testtag geschah etwas, woran ich immer noch denke. Ich ließ Probe #47 durch die Detektoren laufen – einen Abschnitt, den ich aus "Hamlet" entnommen hatte, den ich leicht modernisiert hatte, um offensichtliche archaische Sprachmuster zu vermeiden. Kein Neuschreiben, nur „thou“ gegen „you“ getauscht und ein paar Verbformen angepasst. GPTZero kam mit einer Wahrscheinlichkeit von 87% zurück, dass es sich um KI handelt. Ich saß da und starrte auf den Bildschirm und versuchte zu verarbeiten, was ich sah. Das war Shakespeare. Argumentativ der am meisten studierte Schriftsteller der englischen Sprache. Ein Mann, der 1616 starb, vier Jahrhunderte bevor neuronale Netzwerke existierten. Und der Algorithmus war sich sicher – nicht zögerlich, sondern sicher –, dass seine Worte maschinell generiert waren. Ich machte es noch einmal, in der Annahme, ich hätte einen Fehler gemacht. Dasselbe Ergebnis. Dann probierte ich den ursprünglichen, nicht modernisierten Text aus. Der Wert fiel auf 23%. Offenbar signalisieren archaische Sprachmuster hier „menschlich“ für diese Detektoren, während zeitgenössische englische Versionen derselben Ideen „KI“ signalisieren. Da verstand ich das grundlegende Problem: Diese Werkzeuge detektieren nicht KI. Sie erkennen Muster, die sie mit KI associiert haben, die oft mit den Mustern von klar strukturiertem, gut geschriebenem menschlichen Schreiben überlappen. Ich testete weiter. Probe #52 war ein Absatz aus dem Präambel der US-Verfassung. Originality.AI markierte es als 76% wahrscheinlich KI-generiert. Probe #61 war ein Auszug aus einem technischen Handbuch von einem Softwareleitfaden aus dem Jahr 1987 – Jahrzehnte bevor moderne KI existierte. Drei von fünf Detektoren bezeichneten es als KI. Aber was mich wirklich beunruhigte: Probe #73 war ein 500-Wörter-Essay, den ich mit GPT-4 bei minimaler Bearbeitung generiert hatte. Ich hatte darum gebeten, über den Klimawandel in einem klaren, informativen Stil zu schreiben. Alle fünf Detektoren markierten es als menschlich geschrieben. Der höchste KI-Wahrscheinlichkeitswert war 31%. Das Muster wurde klar: Diese Werkzeuge lagen systematisch in vorhersehbarer Weise falsch. Sie markierten formelle, gut organisierte menschliche Texte als KI. Sie erkannten KI-generierten Text, der lässig war oder kleine Mängel aufwies, nicht. Und sie hatten keine konsistente Logik – was ein Detektor markierte, genehmigte ein anderer. Ich dachte an Maria, die mit Tränen in den Augen in meinem Büro saß. Wie viele andere Studierende waren fälschlicherweise beschuldigt worden, weil sie zu gut schrieben? Wie viele hatten gelernt, dass klares, organisiertes Schreiben irgendwie verdächtig war?Die Zahlen: Eine Aufschlüsselung der Genauigkeit nach Detektor und Genre
Nach Abschluss aller 635 individuellen Tests (127 Proben × 5 Detektoren) habe ich die Ergebnisse in einem umfassenden Datensatz zusammengefasst. Hier sind die Zahlen:| Detektor | Gesamtgenauigkeit | Falsch-Positiv-Rate | Falsch-Negativ-Rate | Wissenschaftlich | Kreativ | Technisch | Journalismus | Persönlich |
|---|---|---|---|---|---|---|---|---|
| GPTZero | 61% | 42% | 36% | 58% | 71% | 48% | 65% | 63% |
| Originality.AI | 54% | 38% | 54% | 52% | 61% | 44% | 58% | 55% |
| Copyleaks | 48% | 51% | 53% | 46% | 55% | 39% | 51% | 49% |
| Writer.com | 57% | 45% | 41% | 54% | 64% | 47% | 60% | 59% |
| Turnitin | 59% | 39% | 43% | 61% | 68% | 51% | 62% | 53% |
| Durchschnitt | 52% | 43% | 45% | 54% | 64% | 46% | 59% | 56% |
Was die Detektorunternehmen Ihnen nicht sagen
Nachdem ich meine ersten Ergebnisse in einem Fakultätsnewsletter veröffentlicht hatte, erhielt ich E-Mails von drei der fünf Unternehmen, deren Werkzeuge ich getestet hatte. Zwei boten an, mir zu helfen, ihre Technologie besser zu verstehen. Einer drohte mit rechtlichen Schritten, wenn ich die Ergebnisse weiter verbreitete, und behauptete, meine Methodik sei fehlerhaft und meine Schlussfolgerungen verleumderisch. Diese Antwort sagte mir alles, was ich wissen musste. Ich begann zu recherchieren, wie diese Unternehmen ihre Produkte vermarkten im Vergleich zu dem, was sie tatsächlich liefern. Die Diskrepanz war überwältigend."Unser KI-Detektionsmodell erzielt eine Genauigkeit von 99% mit weniger als 0,2% falsch positiven Ergebnissen", behauptete ein Unternehmen.