Künstliche Intelligenz scheint aktuell nur eine Entwicklungsrichtung zu kennen. Die Modelle werden immer besser darin, Texte zu schreiben und mit Menschen zu interagieren. Aber die rasante Verbreitung KI-generierter Texte birgt Gefahren für künftige KI-Modelle, wie eine Studie der Cornell University zeigt.
Ein Beitrag von Florian, der dem ganzen KI-Hype gelassen gegenübersteht.
Ein Zukunftsszenario: Schon heute werden mehr und mehr Texte von generativer KI verfasst. Large Language Models (LLM) wie ChatGPT sind relativ neu auf dem Markt. In ihre Entwicklung und ihr Training wurde viel Zeit und Arbeit gesteckt. Riesige neuronale Netzwerke lernen dabei, mit welcher statistischen Wahrscheinlichkeit ein Wort auf ein anderes folgt.
Der Großteil der dafür verwendeten Texte wurde von Menschen geschrieben, die KI-Modelle hatten also einen menschlichen Lehrer. Wenn sich das Verhältnis von menschengemachten und KI-generierten Texten künftig verschiebt, hat dies Auswirkungen auf die Texte, mit denen künftige KI-Modelle trainiert werden. Sie werden mehr und mehr mit Texten gefüttert, die selbst von KI geschrieben wurde. Welche Folgen hat das?
Kollabiert die KI?
Eine mögliche Antwort liefert eine Studie von Forscherinnen und Forschern der Cornell University. Ihnen zufolge führt das „Training neuer Modelle mit Content, der von anderen KI-Modellen generiert wurde, zu nicht behebbaren Fehlern“. Modellkollaps ist der Begriff, den sie für diese Entwicklung vorschlagen. Je mehr Texte (und Bilder) also für das Training neuer KI-Modelle verwendet werden, die selbst von LLMs erstellt wurden, desto schlechter für die neuen Modelle. Ein Paradox also: Je besser die KI und damit je häufiger die Verwendung und Verbreitung ihrer Texte, desto problematischer für die folgenden KI-Modelle.
Degenerierte statt generative KI?
Was passiert dabei genau? KI-Modelle wie ChatGPT, Bard usw. werden mit unvorstellbaren Mengen an Texten (oder Bildern) trainiert und „lernen“, wie Menschen zu schreiben und zu sprechen. Bislang stammen die hierfür verwendeten Texte aus Menschenhand und weisen allerlei verschiedene Schreibstile auf.
Wird nun, wie befürchtet, das Internet mit KI-generierten Texten überschwemmt und ist eventuell gar nicht mehr unterscheidbar, welcher Text vom Menschen und welcher von der Maschine stammt, gehen diese Texte als Trainingsmaterial in die neuronalen Netzwerke der folgenden KI-Generationen ein. Das geht einerseits auf Kosten der Vielfalt (die KI lernt hauptsächlich einen Schreibstil, nämlich ihren eigenen), andererseits werden dadurch Fehler in den Texten und im neuronalen Netzwerk zum Standard für die neuen Modelle. Die KI gibt über ihr Produkt also den Bauplan für ihre Nachfolger weiter. Aufgrund der massenhaften Verbreitung wird es immer schwieriger, diese Fehler zu finden und beim Training neuer Modelle herauszufiltern.
Keine künstliche Intelligenz ohne Menschen
Die Studie der Cornell University legt einen Finger die Wunde. Ohne menschliche Hilfe beim Filtern und Lernen würden KI-Modelle schon heute problematische Inhalte wie Rassismus, Sexismus oder Hassbotschaften verbreiten. Eben genau das, was auch sonst im Internet herumschwirrt. Dass diese Inhalte von unterbezahlten Clickworkern im globalen Süden markiert und herausgefischt werden, gehört auch zur Geschichte von ChatGPT. Ganz so unabhängig vom Menschen, wie gerne getan wird, ist der Lernprozess von KI-Modellen eben doch nicht.
Kommt künftig noch das Problem des Modellkollapses hinzu, behalten menschliche Copywriter ihre Berechtigung und ihre Jobs. Gute Textagenturen werden weiterhin gefragt sein. Beim kreativen Prozess wird KI unterstützen und neben Entwürfen und Gliederungen sicher auch Formulierungen liefern. Den finalen Schliff gibt aber weiterhin der Mensch. Denn anspruchsvolle Kunden wollen Texte, die nicht nur gut klingen, sondern auch mit Fakten fundiert sind – und dazu braucht es gut ausgebildete Texterinnen und Texter.