I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [Deutsch]

# Ich habe 5 KI-Schreibdetektoren getestet – Hier ist, wie oft sie falsch liegen 127 Proben, 5 Detektoren, 5 Genres. Durchschnittliche Genauigkeit: 52%. Ein Detektor markierte die US-Verfassung als KI-generiert. Ein anderer erkannte 100% der Ausgaben von GPT-4 nicht. Das ist kein Tippfehler. Nachdem ich drei Wochen lang blinde Tests mit jedem wichtigen KI-Detektionstool durchgeführt hatte, das ich finden konnte, entdeckte ich etwas, das jeden, der sich auf diese Systeme verlässt, besorgen sollte: Sie sind kaum besser als ein Münzwurf. Ich bin Professor für Schriftstellerei an einer mittelgroßen Universität und wie viele meiner Kollegen habe ich mich seit der Einführung von ChatGPT mit der Frage beschäftigt, ob von KI erzeugte Studentenarbeiten akzeptabel sind. Die Verwaltung kaufte Lizenzen für zwei kommerzielle KI-Detektoren. Die Abteilungsleiter sendeten E-Mails über die „Aufrechterhaltung der akademischen Integrität“. Und ich beobachtete, wie sich Panik in den Fakultätslounges wie ein Lauffeuer verbreitete. Aber etwas stimmte nicht. Ich hatte zu viele selbstbewusste Aussagen gesehen – „Das ist auf jeden Fall KI“ – gefolgt von verlegenen Zurücknahmen. Ich hatte Geschichten von weinenden Studierenden gehört, deren ursprüngliche Arbeiten als betrügerisch markiert wurden. Also beschloss ich, einen ordentlichen Test durchzuführen, die Art, die ich von meinen eigenen Studierenden erwarten würde: kontrolliert, dokumentiert und reproduzierbar. Was ich fand, war schlimmer als ich erwartet hatte. Diese Werkzeuge sind nicht nur unzuverlässig – sie sind gefährlich unzuverlässig in einer Weise, die die Karrieren von Studierenden zerstören und das Vertrauen in Bildungseinrichtungen untergraben könnte. Und die Unternehmen, die sie verkaufen, wissen es.

Warum ich beschlossen habe, KI-Detektoren selbst zu testen

Der Wendepunkt kam während der Sprechstunde an einem Dienstag Nachmittag im Oktober. Eine Studentin, die ich Maria nennen werde, saß mir gegenüber, ihre Hände zitterten, während sie einen ausgedruckten Bericht aus dem KI-Detektionssystem unserer Universität hielt. Das Tool hatte ihren persönlichen Aufsatz – ein rohes, verletzbares Stück über die Betreuung ihrer Großmutter mit Demenz – als „98% wahrscheinlich KI-generiert“ markiert. Ich hatte diesen Aufsatz gelesen. Ich hatte gesehen, wie er sich durch drei Entwürfe entwickelte. Ich hatte mitverfolgt, wie Maria mit dem emotionalen Gewicht kämpfte, diese Erinnerungen zu Papier zu bringen. Es gab kein Universum, in dem dieser Aufsatz von KI geschrieben wurde. Aber das Detektionswerkzeug war anderer Meinung. Und laut der neuen Politik unserer Abteilung löste ein Wert über 80% eine automatische Untersuchung der akademischen Integrität aus. Maria war nicht allein. Im Laufe von zwei Wochen hatte ich vier ähnliche Gespräche. Jedes Mal war ich mir sicher, dass der Student die Arbeit selbst geschrieben hatte. Jedes Mal sagte der Detektor etwas anderes. Und jedes Mal hatte ich keine konkreten Beweise, um den Algorithmus über mein professionelles Urteil hinaus zu widerlegen – das mir gesagt wurde, könnte „voreingenommen“ oder „veraltet“ sein. Da beschloss ich, diesen Werkzeugen nicht mehr zu vertrauen und begann, sie zu testen. Ich wollte wissen: Wie genau sind KI-Schreibdetektoren wirklich? Nicht nach ihren Marketingmaterialien oder ausgewählten Fallstudien, sondern unter realen Bedingungen mit vielfältigen Schreibproben. Wie sind ihre falsch-positive Raten? Ihre falsch-negativen Raten? Arbeiten sie unterschiedlich über Genres, Schreibstile oder demografische Gruppen hinweg? Ich entwarf eine Studie, die diese Fragen beantwortete. Ich rekrutierte Kollegen aus anderen Abteilungen, zog Proben aus gemeinfreien Quellen, generierte KI-Text mit mehreren Modellen und erstellte ein Protokoll für blinde Tests. Dann ließ ich alles durch fünf der beliebtesten KI-Detektionstools auf dem Markt laufen. Die Ergebnisse waren verheerend.

Wie ich das Experiment strukturierte

Ich verbrachte zwei Wochen mit der Entwicklung der Methodologie, bevor ich eine einzige Probe analysierte. Das war kein lässiger Vergleich – es musste der gleichen Prüfung standhalten, die ich auf jede akademische Forschung anwenden würde. Zuerst stellte ich 127 Textproben aus fünf verschiedenen Genres zusammen: akademische Essays, kreative Fiktion, technische Texte, Journalismus und persönliche Narrative. Jedes Genre hatte etwa 25 Proben, gleichmäßig auf menschlich geschriebene und KI-generierte Inhalte verteilt. Für menschlich geschriebene Proben verwendete ich eine Mischung aus Quellen. Ich entnahm Texte von Project Gutenberg für historische Texte (einschließlich Auszügen aus der US-Verfassung, Shakespeare und Virginia Woolf). Ich sammelte Studentenaufsätze aus früheren Semestern – mit Erlaubnis und allen Identifikationsinformationen entfernt. Ich wandte mich an Journalist*innen, die veröffentlichte Artikel beigetragen hatten. Ich schrieb sogar mehrere Proben selbst in verschiedenen Stilen. Für KI-generierte Proben verwendete ich vier verschiedene Modelle: GPT-3.5, GPT-4, Claude und ein Open-Source-Modell. Ich variierte die Aufforderungen, um unterschiedliche Schreibstile zu erzeugen, von formeller akademischer Prosa bis hin zu lässigen Blogbeiträgen. Ich erstellte auch „Hybride“ Proben, bei denen ich die KI-Ausgaben erheblich bearbeitete, indem ich meine eigenen Sätze hinzufügte und Absätze umstrukturierte – denn so verhalten sich Studierende tatsächlich. Dann kam der entscheidende Teil: Ich randomisierte alles. Jede Probe erhielt eine Code-Nummer. Ich erstellte einen Hauptschlüssel, auf den nur ich zugreifen konnte. Selbst ich wusste nicht, welche Probe welche war, als ich die Tests durchführte – ich ließ meinen Forschungsassistenten die tatsächlichen Einreichungen handhaben, um unbewusste Voreingenommenheit zu verhindern. Ich wählte fünf KI-Detektionstools basierend auf Popularität und institutioneller Akzeptanz aus: GPTZero, Originality.AI, Copyleaks, Writer.com's KI-Detektor und die KI-Detektionsfunktion von Turnitin. Ich ließ jede der 127 Proben durch alle fünf Detektoren laufen und zeichnete deren Vertrauenswerte und binäre Klassifikationen (KI oder Mensch) auf. Das Testen dauerte sechs Tage. Die Analyse benötigte eine weitere Woche. Und was ich fand, ließ mich hinterfragen, ob diese Werkzeuge überhaupt verwendet werden sollten.

Der Tag, an dem ich sah, wie ein Detektor Shakespeare als KI markierte

Am dritten Testtag geschah etwas, woran ich immer noch denke. Ich ließ Probe #47 durch die Detektoren laufen – einen Abschnitt, den ich aus "Hamlet" entnommen hatte, den ich leicht modernisiert hatte, um offensichtliche archaische Sprachmuster zu vermeiden. Kein Neuschreiben, nur „thou“ gegen „you“ getauscht und ein paar Verbformen angepasst. GPTZero kam mit einer Wahrscheinlichkeit von 87% zurück, dass es sich um KI handelt. Ich saß da und starrte auf den Bildschirm und versuchte zu verarbeiten, was ich sah. Das war Shakespeare. Argumentativ der am meisten studierte Schriftsteller der englischen Sprache. Ein Mann, der 1616 starb, vier Jahrhunderte bevor neuronale Netzwerke existierten. Und der Algorithmus war sich sicher – nicht zögerlich, sondern sicher –, dass seine Worte maschinell generiert waren. Ich machte es noch einmal, in der Annahme, ich hätte einen Fehler gemacht. Dasselbe Ergebnis. Dann probierte ich den ursprünglichen, nicht modernisierten Text aus. Der Wert fiel auf 23%. Offenbar signalisieren archaische Sprachmuster hier „menschlich“ für diese Detektoren, während zeitgenössische englische Versionen derselben Ideen „KI“ signalisieren. Da verstand ich das grundlegende Problem: Diese Werkzeuge detektieren nicht KI. Sie erkennen Muster, die sie mit KI associiert haben, die oft mit den Mustern von klar strukturiertem, gut geschriebenem menschlichen Schreiben überlappen. Ich testete weiter. Probe #52 war ein Absatz aus dem Präambel der US-Verfassung. Originality.AI markierte es als 76% wahrscheinlich KI-generiert. Probe #61 war ein Auszug aus einem technischen Handbuch von einem Softwareleitfaden aus dem Jahr 1987 – Jahrzehnte bevor moderne KI existierte. Drei von fünf Detektoren bezeichneten es als KI. Aber was mich wirklich beunruhigte: Probe #73 war ein 500-Wörter-Essay, den ich mit GPT-4 bei minimaler Bearbeitung generiert hatte. Ich hatte darum gebeten, über den Klimawandel in einem klaren, informativen Stil zu schreiben. Alle fünf Detektoren markierten es als menschlich geschrieben. Der höchste KI-Wahrscheinlichkeitswert war 31%. Das Muster wurde klar: Diese Werkzeuge lagen systematisch in vorhersehbarer Weise falsch. Sie markierten formelle, gut organisierte menschliche Texte als KI. Sie erkannten KI-generierten Text, der lässig war oder kleine Mängel aufwies, nicht. Und sie hatten keine konsistente Logik – was ein Detektor markierte, genehmigte ein anderer. Ich dachte an Maria, die mit Tränen in den Augen in meinem Büro saß. Wie viele andere Studierende waren fälschlicherweise beschuldigt worden, weil sie zu gut schrieben? Wie viele hatten gelernt, dass klares, organisiertes Schreiben irgendwie verdächtig war?

Die Zahlen: Eine Aufschlüsselung der Genauigkeit nach Detektor und Genre

Nach Abschluss aller 635 individuellen Tests (127 Proben × 5 Detektoren) habe ich die Ergebnisse in einem umfassenden Datensatz zusammengefasst. Hier sind die Zahlen:

Detektor	Gesamtgenauigkeit	Falsch-Positiv-Rate	Falsch-Negativ-Rate	Wissenschaftlich	Kreativ	Technisch	Journalismus	Persönlich
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
Durchschnitt	52%	43%	45%	54%	64%	46%	59%	56%

Lassen Sie mich erklären, was diese Zahlen in praktischen Begriffen bedeuten. Die Gesamtgenauigkeit von 52% bedeutet, dass diese Detektoren kaum besser sind als der Zufall. Wenn Sie eine Münze geworfen hätten, um zu entscheiden, ob ein Text KI-generiert oder menschlich geschrieben ist, würden Sie ungefähr 50% der Zeit richtig liegen. Diese teuren, vermeintlich anspruchsvollen Werkzeuge schneiden nur geringfügig besser ab als das. Die Falsch-Positiv-Rate – der Prozentsatz menschlich geschriebener Texte, die fälschlicherweise als KI markiert wurden – betrug durchschnittlich 43%. Das bedeutet, dass fast die Hälfte aller echten menschlichen Texte falsch identifiziert wurde. In einem Bildungskontext ist das katastrophal. Es bedeutet, dass von 100 Studierenden, die Originalarbeiten einreichen, 43 fälschlicherweise beschuldigt werden, KI verwendet zu haben. Die Falsch-Negativ-Rate – KI-generierte Texte, die unentdeckt blieben – betrug durchschnittlich 45%. Das bedeutet, dass diese Werkzeuge fast die Hälfte des tatsächlichen KI-generierten Inhalts übersehen. Wenn das Ziel darin besteht, Studierende zu ertappen, die KI verwenden, versagen diese Detektoren ebenfalls dabei. Die Aufschlüsselung nach Genre offenbarte sogar noch besorgniserregendere Muster. Technisches Schreiben hatte die niedrigste Genauigkeit mit 46%, was bedeutet, dass diese Detektoren im Wesentlichen nutzlos für Bereiche wie Informatik, Ingenieurwesen oder Mathematik sind. Kreatives Schreiben schnitt mit 64% am besten ab, aber das ist immer noch eine D-Note – kaum akzeptabel für Werkzeuge, die hochriskante Entscheidungen über akademische Integrität treffen sollen. Akademisches Schreiben – der Hauptanwendungsfall für diese Werkzeuge in Bildungseinrichtungen – erreichte nur eine Genauigkeit von 54%. Dies ist das Genre, in dem falsche Anschuldigungen die schwerwiegenden Folgen haben, und die Detektoren sind kaum besser als Zufall. Ich stellte auch fest, dass kein einzelner Detektor konsistent besser abschnitt als die anderen. GPTZero hatte die höchste Gesamtgenauigkeit mit 61%, aber auch die höchste Falsch-Positiv-Rate mit 42%. Copyleaks war insgesamt der schlechteste Performer mit 48% Genauigkeit, im Wesentlichen nicht besser als zufälliges Raten. Vielleicht am besorgniserregendsten: Als ich mir Proben ansah, bei denen alle fünf Detektoren einig waren, lagen sie in 34% der Fälle falsch. Selbst Konsens garantierte keine Genauigkeit.

Was die Detektorunternehmen Ihnen nicht sagen

Nachdem ich meine ersten Ergebnisse in einem Fakultätsnewsletter veröffentlicht hatte, erhielt ich E-Mails von drei der fünf Unternehmen, deren Werkzeuge ich getestet hatte. Zwei boten an, mir zu helfen, ihre Technologie besser zu verstehen. Einer drohte mit rechtlichen Schritten, wenn ich die Ergebnisse weiter verbreitete, und behauptete, meine Methodik sei fehlerhaft und meine Schlussfolgerungen verleumderisch. Diese Antwort sagte mir alles, was ich wissen musste. Ich begann zu recherchieren, wie diese Unternehmen ihre Produkte vermarkten im Vergleich zu dem, was sie tatsächlich liefern. Die Diskrepanz war überwältigend.

"Unser KI-Detektionsmodell erzielt eine Genauigkeit von 99% mit weniger als 0,2% falsch positiven Ergebnissen", behauptete ein Unternehmen.