Hartmut Ulrich. Keins dieser Bilder ist real. Sie sind reine Maschinenträume.
Im berühmten Höhlengleichnis des Philosophen Platon sitzen Gefangene in einer Höhle und halten für die Wirklichkeit, was sie an Schatten an der Wand wahrnehmen - bis einer von ihnen sich befreit, hinaus ans Licht tritt und die wirkliche Welt erkennt. Als er zurückkehrt und den anderen davon erzählt, glaubt ihm niemand. Mir ist, als sei ich derjenige, der gerade ans Licht getreten ist. KI fühlt sich an wie ein LSD-Trip - in vielerlei Hinsicht bewusstseinsverändernd.
Derzeit (manche Texte verfallen schneller als andere, Texte über Technik am schnellsten - und über KI am allerschnellsten. Der Text stammt vom 24. Januar 2024). Derzeit also befasse ich mich intensiv mit KI-Anwendungen. Nicht nur, dass es bereits ein Vollzeitjob ist, sich im Wirrwarr der rundherum in atemberaubendem Tempo entstehenden Angebote zu orientieren (neben den großen Sprachmodellen (LLMs) fanden sich am Launchtag im GPT-Store von openAI sage und schreibe drei Millionen (!) GPTs, die das Sprachmodell von openAI nutzen, um eigene Anwendungen zu realisieren). Daneben entwickelt jede große Plattform eigene KI-Initiativen, nicht zu sprechen von den OpenSource-Modellen, rein für die Wissenschaft bestimmten Anwendungen oder KI-Integrationen, die seit langem etablierte Softwarepakete komplett auf links drehen, zum Beispiel die Creative Cloud von Adobe oder die Anwendungen der Microsoft 365 mit Copilot, das ja in direkter Linie zu openAIs ChatGPT arbeitet. SAP hat gerade angekündigt, rund 8.000 Stellen abzubauen, um sie neu zu besetzen oder nicht mehr, nicht ausschließlich, aber auch wegen KI.
Besonders angetan haben es mir bei meinen Gehversuchen die Bild-Generatoren. Weit vorne liegt dabei Midjourney. Das war bereits bei der Version 5.2 so, aber mit der Version 6.0 vergrößert das Modell den Abstand zur Konkurrenz. Ein bisschen absurd bei Midjourney ist die Tatsache, dass der Einstieg in die Anwendung noch ziemlich nerdy ist: Man muss sich zuerst einen Account bei Discord zulegen, eigentlich eine Chatplattform, die ursprünglich als Kommunikations-Sidecar für Gamer entwickelt wurde, und auf denen Midjourney jetzt als Chatkanal läuft. Obwohl es nur noch eine Frage der Zeit ist, bis man auch direkt über die Webseite prompten kann, braucht es im Moment noch eine persönliche Einladung in die Gruppe, die erst dann erteilt wird, wenn du deinen Account (und einen Zahlungsplan) eingerichtet hast.
Die Version 6 erfordert eine etwas andere Art des Prompting – die Entwickler sprechen davon, dass man in der neuen Version (die noch Alpha-Status hat) sich im Vergleich zur Vorgängerversion völlig umstellen – das Prompting quasi neu lernen müsse. Mit absurd meine ich, dass das Prompting als Klarsprache grundsätzlich erst einmal sehr einfach erscheint - und durch seine intuitive Erlernbarkeit die aktuell mit Abstand höchste Evolutionsstufe der Mensch-Maschine-Kommunikation darstellt (noch bis vor kurzem musste man zumindest die mehr oder weniger gelungenen User Interfaces in Applikationen durchdringen. iPhone-Apps stellen dabei bereits eine sehr weit fortgeschrittene UX dar, wer jemals Datenbankanwendungen aus den 90er Jahren bedienen musste, weiß, wovon ich spreche. Darunter liegen die Programmiersprachen - zwar auch Sprachmodelle, jedoch so abstrakt, dass sie gelernt werden müssen wie eine Fremdsprache.
Der intuitive erste Eindruck der großen Sprachmodelle täuscht allerdings (noch): Wer Midjourney perfekt prompten will, sollte unter anderem fundierte Kenntnisse der Fotogafie mitbringen, weil sich über mitgepromptete Brennweiten, Blenden und Belichtungszeiten gezielt Kameraeffekte ins gewünschte Bild rechnen lassen, die der Maschine sonst kaum kontrolliert mit Sprache zu vermitteln wären. Daneben gibt es eine Reihe von Funktionsprompts, mit denen sich zum Beispiel das Bildformat pixelgenau kontrollieren lässt. Das ist keineswegs intuitiv, sondern will ausprobiert und schrittweise erlernt werden.
Der nächste Schritt der generativen Transformer steht bereits in den Startlöchern; die sog. Multimodalen Modelle: Apple hat mit Ferret eins ganz ohne den sonst üblichen Lärm angekündigt, und dann auch noch als Open Source Modell - ebenfalls vollkommen Apple-untypisch - und eigentlich nur erklärbar mit der Tatsache, dass Apple in kurzer Zeit ziemlich in Rückstand geraten ist gegenüber den anderen Big Four. Auch Googles Gemini Ultra verspricht Multimodalität: Modelle wie ChatGPT, die den aktuellen Hype Anfang letzten Jahres überhaupt erst ausgelöst haben, verstehen nur Sprache als Eingabeinstanz. Multimodale Modelle werden Bilder interpretieren, Text, Töne, Videos und Programmcode: Als Grundlagen für Initial bzw. Masterprompts und für die exakte Ergebnisgenerierung wird das erneut ein Riesensprung sein.
Und wenn die großen Modelle dann auch noch eine Aktionsschnittstelle bekommen, mit denen sie selbst Funktionen ausführen, also "handeln" können, wird es erst richtig spannend. Im Moment leben die meisten GPTs im Store davon, dass sie etwas ausführen können, was ChatGPT alleine nicht kann. Dann dürfte der Weg zum universalen persönlichen Assistenten nicht mehr allzu weit sein – idealerweise direkt integriert in eine Hardware, deren Sensorik mit Mikrofon, Kamera und Screen so etwas bildet wie eigene „Sinnesorgane“, was der KI eine echte selbstlernende Welterfahrung ermöglichen würde. Dann ist es möglicherweise auch nicht mehr weit bis zur AGI.
(dieser Text ist vor allem geschrieben, um in sechs, zwölf oder 24 Monaten nochmal nachzulesen und darüber zu lächeln. Weil sich so viel verändert haben wird bis dahin. Auch hier ist es ein bisschen wie mit Fotos: An Wert gewinnen Logbucheinträge erst mit zunehmendem Alter, wenn sie zu Dokumenten einer Zeit geworden sind, die nicht mehr existiert.)
P.S.: Was da entsteht, erfordert sorgfältiges Nachdenken, was möglich sein darf - und was nicht. Wie immer gibt es eine utopische und eine dystopische Version. Was mich beunruhigt, ist die Geschwindigkeit, mit der sich die Speerspitze dieser Entwicklung vom gesamten Rest der Menschheit entfernt. Oder, um in der Metapher des Höhlengleichnisses zu bleiben: Nur wenige haben das Licht gesehen und alle anderen glauben nicht, was ihnen von draußen erzählt wird.
In vielen Fällen ist nicht mehr klar zu sagen, was wirklich ist und was Simulation.
Der Film Inception aus dem Jahr 2010 befasste sich auf faszinierende Weise mit dem Wirklichkeitsbegriff,
Matrix setzte 1999 neue Maßstäbe:
Nimmst du die rote Pille oder die blaue?
Her erzählte 2013 die Geschichte von einem Mann, der sich in eine KI verliebt und eine tiefe Beziehung zu ihr aufbaut - bis er erkennt, dass sie das zeitgleich noch mit 10.000 anderen Männern tut. Jetzt ist es aber keine Hollywood-Unterhaltung mehr, sondern das eigene Leben und die eigene Wirklichkeitswahrnehmung. Creepy.
Es ist die größte Herausforderung, vor der die Menschheit jemals stand. Und es ist durchaus im Rahmen des Möglichen, dass es die letzte sein wird. Weil die Fehler, mit denen sich die Menschheit unter Schmerzen und großen Verlusten durch die Jahrtausende nach vorne gescheitert hat, nun einfach zu folgenreich werden.
Aber das wäre ein viel zu pessimistischer Schluss. Begreifen wir KI doch besser als das größte Abenteuer der Menschheitsgeschichte: Bekanntlich besteht das Wesen jedes Abenteuers darin, dass der Ausgang vollkommen ungewiss ist, dass es sich weder bis ins Detail planen noch vorhersagen lässt, und dass sein Verlauf gleichermaßen fasizinierend wie furchterregend ist.
Wenn wir es überleben, werden wir einiges zu erzählen haben.
Es handelt sich um einen Kommentar unter dem Post eines Journalisten beim Hessischen Rundfunk, am Tag der Vorstellung von OpenAIs Videogenerator Sora.