Alarmierende Ergebnisse: KI-Detektoren versagen bei deutschen Texten zu 65,93%!

Inhaltsverzeichnis

ChatGPT is calling…
Wie funktionieren KI-Text-Detektoren?
Perplexität
Burstiness
Welche KI-Detektor-Tools gibt es?
Wie wurden die KI-Detektor-Tools getestet?
Vergleich: True-Positive & False-Positive
Kann man einen KI-Detektor-Tool umgehen?

KI-Text-Detektoren sind Tools, die dafür programmiert sind, zu erkennen, ob ein Text teilweise oder vollständig mit KI-Textgeneratoren wie ChatGPT erstellt wurde. Die Anwendung eines KI-Detektors bietet Vorteile, falls Verdacht besteht, dass ein Text möglicherweise von einer KI generiert wurde. Insbesondere Lehrkräfte können davon profitieren, da sie prüfen können, ob ihre Schülerinnen und Schüler eigenständig Texte verfassen oder nicht.

ChatGPT is calling…

Was wäre, wenn ich dir sage, dass der vorherige Absatz von einer KI verfasst wurde?
Tatsächlich habe ich ChatGPT gebeten, eine kurze Einführung für diesen Beitrag zu schreiben, und das ist das Resultat. Es wirkt ziemlich überzeugend, oder?
Hier liegt das Dilemma: KI-Texte sind teilweise so überzeugend, dass irgendjemand es als seine eigene Arbeit ausgeben könnte!
Als SEO-Agentur arbeiten wir oft mit Content-Autoren zusammen und müssen daher sicherstellen, dass die von ihnen gelieferten Texte von Menschen erstellt wurden. Das hat uns motiviert, zu untersuchen, ob es Möglichkeiten gibt, KI-geschriebene Texte zu erkennen.
Es ist eine herausfordernde Aufgabe, KI-generierte Inhalte zu erkennen, und ich möchte dir keine falschen Hoffnungen machen, dass eine Erkennung mit 100-prozentiger Genauigkeit möglich ist. Mit etwas Linguistik, Detektivarbeit und Unterstützung von KI-Content-Detektor-Tools kannst du jedoch die meisten KI-generierten Inhalte aufspüren.
In diesem Beitrag geht es darum, wie KI-Detektor-Tools funktionieren und wie zuverlässig sie sind. Darüber hinaus wird versucht herauszufinden, ob es Möglichkeiten gibt, die Detektortools auszutricksen.

Wie funktionieren KI-Text-Detektoren?

Die Erkennung von KI-Schreibweise basiert im Wesentlichen auf Reverse-Engineering-Sprachmustern. In einfacheren Worten ausgedrückt, ermitteln sie, wie hoch die Wahrscheinlichkeit ist, dass ein Wort B auf das Wort A folgt.
Das bedeutet, dass die Maschine einen Textabschnitt zerlegt und dann einen Algorithmus verwendet, um ein Muster in den Wörtern zu erkennen. Wenn ein Muster leichter zu erkennen ist, steigen die Chancen, dass es von KI geschrieben wurde.
Der junge Wissenschaftler Edward Tian aus Princeton zeigt in seinem Projekt die beste Lösung für KI-Texterkennung. Er nutzt Prüfdimensionen wie:

Perplexität (Verwirrung)
Burstiness (Durchbruch)

Perplexität

Der Begriff Perplexität beschreibt den Grad der Verwirrung in einem gegebenen Text:
Ein hoher Wert weist meist auf einen menschlichen Autor hin und zeichnet sich durch eine höhere Komplexität aus. Niedrigere Werte hingegen deuten darauf hin, dass KI-Textgeneratoren die Autorenschaft übernommen haben und mehr auf Klarheit und Verständlichkeit achten.
KI-Textgeneratoren funktionieren durch Berechnung der Wahrscheinlichkeiten für das nächste Wort in einem Satz. Die dadurch erzeugten Texte sind meist klar strukturiert und flüssig lesbar, können jedoch auch als langweilig oder repetitiv empfunden werden.

Hohe Perplexität = Text ist verwirrend → von Menschen generiert
Niedrige Perplexität= Text ist nicht verwirrend → KI generiert

Zum Beispiel gibt es für den Satz: „Milana arbeitet bei Buzzmatic, um …” plausiblere und weniger plausible Möglichkeiten, wie zum Beispiel:

Burstiness

Burstiness bezieht diese Vorhersehbarkeit auf einen ganzen Text. Je geringer die Komplexität eines Textes, desto höher ist die Wahrscheinlichkeit, dass eine KI den Inhalt verfasst hat

Eine niedrige Burstiness bedeutet also, dass die Satzstruktur und -länge kaum variiert werden, was darauf hindeutet, dass der Text von einer KI erstellt wurde.
Eine hohe Burstiness hingegen zeigt an, dass die Satzstruktur und -länge variiert werden, was darauf hindeutet, dass der Text von einem Menschen geschrieben wurde.

Welche KI-Detektor-Tools gibt es?

Es stehen verschiedene Tools zur Verfügung, um KI-generierte Inhalte zu identifizieren. Die Genauigkeit dieser Tools kann jedoch variieren und hängt oft von der Art des Inhalts und seiner Länge ab.
Unten findet Ihr Tools, die meiner Analyse nach besten Ergebnissen lieferten und am einfachsten zu verwenden sind:
Originality AI → Funktioniert als Google Chrome-Erweiterung, mit der man ganz einfach in Echtzeit überprüfen kann, ob eine Seite von einer KI erstellt wurde.
Copyleaks → Erkennt KI-generierten Text, inklusive neuer Modelle wie GPT-4, Jasper und Bard. Bietet zudem eine kostenlose Chrome-Erweiterung an.
Writer → Die Nutzer können eine URL hinzufügen oder Text kopieren und in das Fenster einfügen. Nachdem du auf „Text analysieren“ geklickt hast, gibt die Plattform den Prozentsatz der KI-generierten Texte an, die in dem Artikel entdeckt wurden.
Crossplag → Verfügt über eine Thermometerskala, die anzeigt, wie viel von dem Artikel gefälscht ist. Wenn das Thermometer grün bleibt, ist der Artikel unbedenklich und wurde größtenteils von einem Menschen erstellt.
GPT Zero → Häufig von Lehrkräften verwendet, aber auch für geschäftliche Zwecke nützlich.

Wie wurden die KI-Detektor-Tools getestet?

Ich habe oben genannte Tools mit verschiedenen Arten von Inhalten getestet, die von ChatGPT generiert wurden. Kurz gesagt, es wurden 100 verschiedene Texte gesammelt, die von ChatGPT geschrieben wurden.
Anschließend wurde jeder Text durch die folgenden Content-Detektor-Tools getestet. Hier ist eine kurze Zusammenfassung meiner Ergebnisse. Ich habe mich am Ende nur für Tools entschieden, deren Genauigkeit über 70 % pro 100 Texte liegt.

Wie Ihr sehen könnt, konnte Originality.ai mit 98 % Detection Level KI-generierte-Texte erkennen.
Da Originality.ai die besten Ergebnisse lieferte, habe ich beschlossen, meine Detektivarbeit nur mit diesem Tool fortzusetzen. Für mich war es interessant zu sehen, wie zuverlässig dieses Tool ist und ob es Möglichkeiten gibt, dieses Tool auszutricksen.
Und so ging es weiter…
Um meine Ergebnisse zu validieren, habe ich mich entschieden, Texte zu verwenden, die alle oben genannten Tools zu 100 % als KI- generiert erkannt haben.
Am Anfang habe ich die exakte Completion von ChatGPT in das Originality.ai Tool eingefügt. Wie ihr unten sieht, konnte Originality.ai ChatGPT sehr gut erkennen:

Es reicht jedoch aus, ein paar kleine Details zu ändern, damit das Tool völlig andere Ergebnisse liefert:

Kannst du erkennen, was ich geändert habe?

Mit einigen Unvollkommenheiten wie zusätzliche Leerzeichen oder Tippfehler kann man den KI-Detektor verwirren. Das Tool identifiziert den gesamten Absatz nun als von Menschen erstellt.

Vergleich: True-Positive & False-Positive

Der gleiche Test wurde auch mit von Menschen erstellten Texten durchgeführt. Es war interessant zu analysieren, wie die Detektor Tools bei von Menschen erstellten Texten funktionieren.
Ich habe 100 von Menschen erstellte Texte in das Tool hochgeladen. Bei den Texten auf Englisch sah alles vielversprechend aus. Originality.ai konnte 94,65 % der Texte als true-positive Texte erkennen. Bei den Texten auf Deutsch hingegen sieht man ein abweichendes Bild. Nur 34,07 % des Inhalts wurden korrekt erkannt:

Wie ihr im Beispiel unten sehen könnt, weist das Tool einige Komplikationen auf, um deutsche Originaltexte zu erkennen. Sogar der Originaltext von Adolf Hitler aus dem Jahr 1933 wurde als zu 79 % KI-generiert identifiziert:

Wir planen, in unseren kommenden Beiträgen eine gründliche Analyse der Fragestellung durchzuführen, warum bestimmte deutsche Texte, obwohl sie eindeutige Indikatoren für eine menschliche Erstellung aufweisen, als von KI erstellt identifiziert werden.

Kann man einen KI-Detektor-Tool umgehen?

KI-Content-Detektoren mögen effektive und beliebte Werkzeuge sein, aber sie haben auch ihre Nachteile. Ihre Genauigkeit hängt von den Daten ab, auf die sie trainiert wurden.
Diese Erkenntnis ließ mich darüber nachdenken, ob man einer KI, wie ChatGPT eine bestimmte Eingabeaufforderung geben kann, damit die Detector-Tools den erstellten Inhalt nicht als KI-erstellt identifizieren können. Deshalb habe ich ChatGPT gebeten, einen Absatz über Buzzmatic zu verfassen, was Originality.ai leicht als KI-generiert identifizieren könnte.

Dann habe ich ChatGPT gebeten, es neu zu formulieren. Dabei habe ich bestimmte Eingabeaufforderung verwendet, worüber ich in meinem nächsten Beitrag schreiben werde.
Und das kam dabei raus…

Wenn man in ChatGPT genaue Anforderungen verwendet, kann man tatsächlich KI-Texte generieren, die die Tools wie Originality.ai als von Menschen erstellt einstufen.
Bis ich meinen nächsten Beitrag schreibe, kannst du unten einen Vergleich beider Texte sehen. Auf der linken Seite siehst du einen Original-ChatGPT-Text, auf der rechten Seite siehst du einen Text, der von ChatGPT umgestaltet wurde. Du kannst gerne versuchen, die Unterschiede zu analysieren.

Larissa (Autorin)

Als Managerin für Content-Erstellung bei Buzzmatic bringt Larissa eine tiefe Expertise in Content-Erstellung, PR und SEO mit. Ihre Rolle und ihr umfassendes Wissen haben wesentlich zur Entwicklung und Umsetzung effektiver Marketingstrategien beigetragen. Larissa ist für ihre Fähigkeit bekannt, komplexe Ideen in klare und einnehmende Inhalte zu verwandeln, was sie zu einer angesehenen Figur in der digitalen Marketingbranche macht.

Beitrag mit anderen SEO-Begeisterten teilen