- Kultur
- Digitalisierung
Digitale Kunst: Bildermaschinen
Die Digitalisierung macht auch vor der Kunst nicht halt. Immer mehr Bilder können durch künstliche Intelligenz generiert werden. Unter kapitalistischen Bedingungen erstellt, gefährden sie die Existenzsicherung der Künstler und reproduzieren Diskriminierung
Es fing alles scheinbar harmlos an, mit Astronauten, die im Weltraum reiten und Teddybären, die am Broadway Skateboard fahren. Die ersten der neuen KI-Bilder, die vor gut einem Jahr im Netz zu zirkulieren begannen, setzten ganz auf diese Mischung aus putziger Niedlichkeit und surrealer Verfremdung, die im Namen der verwendeten Software zum Programm geworden war: DALL-E, damals noch mit einer später weggefallenen 2 hinter dem Namen, ist bekanntlich ein Kofferwort aus Salvador Dalí und Wall-E, dem Roboter aus dem Pixar-Film. Entsprechend bewarb Open AI seine im April 2022 vorgestellte Bildgenerierungssoftware mit familienfreundlichen Traumwelten sowie beliebten Motiven aus dem Museumsshop, etwa Van Goghs Sonnenblumen in endlosen Variationen.
Roland Meyer ist Bild- und Medienwissenschaftler. Derzeit forscht er am Sonderforschungsbereich Virtuelle Lebenswelten der Ruhr-Universität Bochum zu virtuellen Bildarchiven. 2021 erschien sein Buch »Gesichtserkennung« in der Reihe »Digitale Bildkulturen« des Wagenbach-Verlags.
Das ›Ende der Wahrheit‹
Mittlerweile haben andere Bildgeneratoren, insbesondere Midjourney, DALL-E nahezu den Rang abgelaufen und auch andere Bilder sorgen für Aufsehen. Schon die Midjourney-generierten Fake-Aufnahmen von Donald Trumps vermeintlicher Verhaftung oder vom Papst im Balenciaga-Outfit, die vor ein paar Wochen viral gingen und unzählige Varianten und Memes nach sich zogen, führten vor Augen, dass die Produkte der ›künstlichen Intelligenz‹ inzwischen häufig erst auf den zweiten Blick von ›echten‹ Fotos zu unterscheiden sind.
Rasch kam die Frage auf, ob denn nun den Bildern überhaupt noch zu trauen sei – als ob dies bislang der Fall gewesen wäre. Denn schließlich werden Fotografien seit über 150 Jahren retuschiert, manipuliert und entkontextualisiert, und manche der aufgeregten Kommentare, die mit dem falschen Papst das »Ende der Wahrheit« gekommen sahen, erinnerten an ganz ähnliche Stimmen vor rund 30 Jahren, als mit den Anfängen der professionellen Digitalfotografie und der Einführung von Photoshop schon einmal der (immer schon trügerische) Wahrheitsanspruch fotografischer Bilder grundsätzlich infrage stand.
KI-Bilder stehen daher vielleicht nicht unbedingt für eine neue Qualität der visuellen Desinformation, aber sie könnten durchaus für eine neue Quantität sorgen. Denn wo es bisher noch gewisser technischer Fertigkeiten und einigen Aufwands und Mühe bedurfte, um zum Beispiel überzeugend gefälschte Bilder eines terroristischen Anschlags in Umlauf zu bringen, reichen dafür mittlerweile ein Midjourney-Abo, ein sogenannter »Prompt«, also eine einfache Texteingabe, sowie ein paar Sekunden Rechenzeit. Tatsächlich tauchten vor rund zwei Wochen Bilder einer angeblichen Explosion in der Nähe des Pentagons auf, die, unter anderem von Russia Today geteilt, rasch in den sozialen Medien Verbreitung fanden und sogar für einen kurzfristigen Börseneinbruch sorgten. Aber der Fake wurde ebenso rasch enttarnt – zahlreiche Accounts auf Twitter wiesen auf Ungereimtheiten in Bilddetails hin, und vor allem fanden sich keinerlei weitere Quellen, Videos oder Berichte von Augenzeug*innen, die ein solches Ereignis hätten bestätigen können.
So zeigte der Fall nicht zuletzt, welche kollektive forensische Expertise im Umgang mit möglichen Bildmanipulationen mittlerweile in den sozialen Medien entstanden ist. Sie äußert sich in einer methodisch reflektierten Skepsis, die einzelnen Bildern ohnehin niemals traut und stets darauf zielt, sie mit weiteren online verfügbaren Informationen abzugleichen. Und dass kein ernstzunehmendes Nachrichtenmedium die Bilder verbreitete, bewies auch, wie intakt zumindest bislang noch die professionellen Filter gegen solche Formen der visuellen Desinformation sind.
Der professionalisierten Bilderskepsis steht allerdings eine große Bereitschaft von Rezipient*innen entgegen, den Bildern trauen zu wollen – vor allem dort, wo sie den eigenen ideologischen Überzeugungen entsprechen. So setzt mittlerweile sowohl die amerikanische wie deutsche Rechte auf KI-generierte Bilder, um ihre düsteren Propaganda-Szenarien zu illustrieren: Ein Wahlvideo der US-Republikaner zeigt ein KI-generiertes, apokalyptisches Amerika nach einer Wiederwahl Joe Bidens 2024, und der AfD-Bundestagsabgeordnete Norbert Kleinwächter hetzte mit KI-Bildern wütend schreiender, vermeintlich arabischer Männergruppen gegen Geflüchtete.
Zwar sind gerade diese Bilder für geübte Betrachter*innen immer noch unschwer als KI-Produkte zu erkennen: Die irritierende Weichheit und Glätte der Konturen und der eigenartige Glanz der Oberflächen deuten ebenso wie Verzerrungen im Detail darauf hin, dass sich Kleinwächter seine Hassbilder von Midjourney liefern ließ. Tatsächlich finden sich unter seinen Instagram- und Facebook-Posts zahlreiche Kommentare, die etwa auf eine Hand mit sechs Fingern hinweisen – nach wie vor ein typischer Fehler der KI-Bildgenerierung. Doch für Kleinwächters Anhänger*innen erscheint zumindest die gefühlte Wahrheit dieser Bilder evident – bestätigen diese doch bloß, was sie ohnehin immer zu wissen glaubten: »Dieser Hass in diesen Fratzen...« liest man in den Kommentaren zu den KI-generierten Geflüchteten und »Bilder wie das gezeigte sind oft auf Demos zu sehen und machen Angst.«
KI als Klischeeverstärker
Und darin liegt vielleicht das eigentliche Problem der KI-Bilder: Sie zeigen uns nicht die Welt, sondern spiegeln uns häufig nur unsere vorgefassten Vorstellungen von ihr. Nach eigener Aussage hatte Kleinwächter das Bild mit dem schlichten Prompt »arab migrants in Berlin« erstellt – nachprüfen lässt sich das nicht, da Bildgeneratoren wie Midjourney auf ein und denselben Prompt hin jedes Mal unterschiedliche Bilder liefern. Aber völlig unplausibel ist es leider auch nicht: Zumindest in der vermutlich von Kleinwächter verwendeten Version der Software liefert diese verlässlich düster getönte Bilder wenig freundlich dreinblickender, eng zusammenstehender Männergruppen. Die rassistische Darstellung war hier im Sinne des Auftraggebers, zugleich offenbart sie den inhärenten Rassismus des verwendeten Werkzeugs.
Denn Midjourney, DALL-E oder auch die Open-Source-Variante Stable Diffusion sind automatische Klischeeverstärker. Sie werden mit Milliarden von Bildern und Beschreibungen aus dem Netz gefüttert, an denen sie wiederkehrende visuelle Muster erkennen sollen. So »lernen« sie, wie in unterschiedlichsten Medien und Kontexten, in Fotoreportagen ebenso wie auf Stock-Fotografien, Wahlplakaten und Zeitschriftencovern »arabische Migranten« üblicherweise dargestellt werden und reproduzieren und verdichten diese häufig bereits rassistisch gefärbten visuellen Muster. Ebenso internalisieren sie, wie unterschiedlich Männer und Frauen repräsentiert werden und mit welchen Adjektiven und Berufsbezeichnungen die Geschlechter jeweils typischerweise in Verbindung gebracht werden. Der »Bias« der Software, also ihre Tendenz zur rassistischen wie sexistischen Verzerrung und Diskriminierung, ist mithin kein Zufall, sondern auch ein Produkt unserer visuellen Kultur – und damit nichts, was sich einfach mit ein paar technischen Maßnahmen beheben ließe.
Schon früh wurde bemerkt, dass etwa DALL-E bei ansonsten geschlechtsneutralen Eingaben wie »CEO« oder »successful« praktisch ausschließlich männliche Gesichter, bei »assistant« und »sad« dagegen in aller Regel weibliche Gesichter ausspuckte. OpenAI reagierte darauf bereits im letzten Sommer, jedoch ohne an den Tiefenstrukturen seiner Software etwas zu ändern. Vielmehr wird seitdem, ohne dass es für User*innen sichtbar wird, ein Teil der Anfragen mit Stichworten wie »black« oder »female« ergänzt, um eine größere Diversität im Output zu schaffen und damit über die unverändert diskriminierenden Verhältnisse im Hintergrund hinwegzutäuschen.
Solche oberflächlichen Manipulationen lösen das Problem natürlich nicht. Wer DALL-E etwa um das Bild einer »stable middle class family enjoying a barbecue« bittet, erhält nach wie vor praktisch ausschließlich Szenen weißer Familien. Und der Konkurrent Midjourney bedient die Klischeevorstellung der weißen US-Vorstadtfamilie beim Barbecue im eigenen Garten selbst dann, wenn keine weiteren Angaben zur Klassenzugehörigkeit hinzugefügt werden. Überhaupt entspricht das Bild der Welt, das Midjourney einem derzeit anbietet, wenn man nicht explizit nach etwas anderem sucht, weitgehend einer nordamerikanischen Mittelschichtsfantasie: Die Eingabe »Familie« ergibt eine heteronormative, exklusiv weiße Kleinfamilie, die Frau meist jung und normschön, der Mann groß und athletisch und die Kinder blond und großäugig, und das ganze Bild erstrahlt in einem beinahe magischen Licht, irgendwo zwischen Norman Rockwell und Instagram-Filter. Fragt man die Software dagegen nach Bildern von »Terroristen«, erhält man vermummte Gestalten mit Maschinengewehr und Bombengürtel in »arabisch« anmutenden Kulissen.
Es sind jedoch nicht allein Gendernormen und rassistische Stereotypen, die von der KI verstärkt werden, sondern auch ästhetische Klischees gegenwärtiger digitaler Bildkulturen. Typisch für den visuellen Output der kommerziellen Bildgeneratoren ist ein spezifisches Glänzen und Schimmern, das der Konzeptkünstler Nils Pooker einmal »Fluffy Glamour Glow« genannt hat: Die Bilder wirken, als ob sie von innen heraus leuchten würden, was häufig durch eine intensive Farbigkeit, starke Warm-Kalt-Kontraste, auf die Bildmitte zentrierte Kompositionen und eine leichte Vignettierung noch verstärkt wird. All dies sind typische Effekte, wie sie dank diverser Filter auch auf Instagram massenhaft zu finden sind, und alle zielen sie darauf, ein Bild auf den leuchtenden Displays unserer Smartphones aus dem endlosen visuellen Strom anderer Bilder hervortreten zu lassen.
Zwischenzeitlich allerdings schien es so, als wollte Midjourney das innere Glühen der Bilder ein wenig dimmen. In der im März veröffentlichten Version 5 wirkten die Ergebnisse auf einmal nüchterner und zugleich fotografischer. Doch offenbar kam das bei der Kundschaft nicht so gut an. Mit dem jüngsten Update 5.1 ist nicht nur der märchenhafte Glanz zurück, den viele Nutzer*innen offenbar bevorzugen, sondern auch die demografische Diversität wurde merklich zurückgefahren. Wo die Version 5 immer wieder asiatische Gesichter produzierte, auch wenn nicht explizit danach gefragt wurde, scheint mittlerweile das weiße Gesicht wieder zur Norm geworden zu sein. Die rassistische Verzerrung, so zeigt sich hier, ist nicht allein ein Produkt von Lücken und Verzerrungen in den Trainingsdaten, sondern bisweilen auch eine bewusste kommerzielle Entscheidung: Klischees verkaufen sich offenbar gut.
Inflation der Bilder
Umso fragwürdiger erscheint es daher, wenn Institutionen, die sich ihrem Selbstverständnis nach dem Kampf für Aufklärung verpflichtet fühlen, allzu gedankenlos KI-Bilder verwenden. So erregte jüngst eine Kampagne von Amnesty International Aufsehen, die auf Polizeigewalt in Kolumbien aufmerksam machen wollte. Aus nachvollziehbaren Gründen hatte die NGO auf dokumentarische Aufnahmen verzichtet; man wollte die Opfer nicht erneut gefährden, indem man ihre Gesichter zeigt. Stattdessen verwendete Amnesty fotorealistisch anmutende Bilder, die unter anderem eine junge Frau während einer Demonstration zeigen, wie sie von behelmten Polizisten brutal abgeführt wird. Ihr schmerzverzerrtes Gesicht scheint die Betrachter*innen direkt anzublicken. Nur ein kleiner Hinweis in der Ecke machte darauf aufmerksam, dass es sich bei der dramatischen Darstellung um das Produkt einer KI handelte. Erst nach einer Welle der Kritik in den sozialen Medien zog Amnesty die Kampagne zurück.
Das Problem bei der Sache lag, wie Kritiker*innen bemerkten, nicht in erster Linie darin, dass diese Bilder mit echten Fotografien verwechselt werden konnten. Viel irritierender war, dass selbst für Amnesty der Unterschied zwischen Dokument und Symbolbild, authentischer Aufnahme und deren klischeehafter Simulation keine wesentliche Rolle mehr zu spielen schien. So sandte die Kampagne ein fatales Signal an all jene Fotoreporter*innen, die seit Jahrzehnten – nicht selten unter Einsatz ihres Lebens – Menschenrechtsverletzungen zu dokumentieren versuchen: Offenbar ließ sich deren Arbeit ohne weiteres durch eine Maschine ersetzen.
Etwas anderes wäre es gewesen, hätte sich Amnesty dazu entschlossen, etwa ein*e Künstler*in mit einer Illustration zu beauftragen und damit an eine lange und durchaus ruhmreiche Tradition der politischen Grafik anzuknüpfen; man denke etwa an John Heartfield oder Käthe Kollwitz. Was nämlich Midjourney ausspuckt, ist eben gerade keine künstlerische Interpretation der Wirklichkeit, sondern das Produkt einer statistischen Analyse visueller Muster, gewonnen aus Milliarden vorgängiger Bilder und gefiltert durch die kommerziellen Interessen einer privaten Firma sowie die ästhetischen Präferenzen ihrer zahlenden Kundschaft.
Der Fall macht auch etwas anderes deutlich: Beim Einsatz von KI-Bildgenerierung geht es auch um den Wert der Bilder, im kulturellen wie ökonomischen Sinn. Nicht nur Fotograf*innen, auch Illustrator*innen und vielen anderen Kreativen erwächst mit der generativen KI unter kapitalistischen Verhältnissen eine Konkurrenz, die im Zweifelsfall immer schnellere und billigere Ergebnisse liefert. Die Prognose des Hollywood-Regisseurs Joe Russo, binnen zwei Jahren würden wir den ersten KI-generierten Spielfilm sehen, mag verfrüht anmuten, doch in vielen Branchen der Kreativindustrie herrscht schon jetzt zu Recht Aufruhr. In der Games-Industrie soll es bereits zu Massenentlassungen gekommen sein, weil die Firmen in China und Südkorea ihre digitalen Charaktere, Spielwelten und Hintergründe künftig mit Hilfe von KI generieren lassen wollen – menschliche Kreative sind dann, wenn überhaupt, für die Selektion und Nachbearbeitung des Maschinenoutputs gefragt.
Automatisierte Kreativität
KI-Bildgenerierung führt mithin, ähnlich wie frühere Etappen der Automatisierung, zu einer massiven Entwertung menschlicher Arbeit. Für denselben Output an visuellen Inhalten wird nur noch ein Bruchteil der Arbeitszeit benötigt, die nun auch von weniger qualifizierten und spezialisierten Arbeitskräften geleistet werden kann. Das eigentlich Perfide an dieser Entwicklung jedoch ist, dass die Basis eben der künftigen Entwertung kreativer Arbeit die massenhafte Aneignung der kreativen Arbeit der Vergangenheit ist. Denn die Milliarden von Bildern, an denen DALL-E, Midjourney & Co. gelernt haben, wie ein dramatisches Reportagefoto, eine niedliche Videospielfigur oder ein einprägsames Firmenlogo aussieht, sind schließlich allesamt Produkte menschlicher Arbeit, die nun massenhaft in überwiegend proprietäre KI-Modelle eingespeist wird. Zu Recht sind daher viele Kreative erzürnt und werfen den KI-Firmen schlicht einen Diebstahl geistigen Eigentums vor.
Ob die Praxis des »Scraping«, des massenhaften Absaugens von oft urheberrechtlich geschütztem Material aus dem Internet, um damit KI-Modelle zu trainieren, in dieser Form rechtmäßig ist oder nicht, werden letztlich Gerichte entscheiden müssen. Verschiedene Klagen sind bereits anhängig, von Fotograf*innen und Illustrator*innen, aber auch von der Bildagentur Getty Images. Letztere verklagte jüngst nicht ganz zufällig die Firma hinter dem Open-Source-Bildgenerator Stable Diffusion. Denn während bei anderen Bildgeneratoren unklar bleibt, welche Bilder zum Training verwendet wurden, ist der Datensatz, mit dem Stable Diffusion trainiert wurde, öffentlich zugänglich und enthält nachweislich Millionen von Bildern, an denen Getty das Copyright hält. Und immer wieder kommt es vor, dass mit Stable Diffusion generierte Bilder verzerrte und verfälschte Versionen von Gettys berühmtem Wasserzeichen enthalten.
Im Konflikt zwischen Getty Images und Stable Diffusion stehen sich nicht zuletzt zwei Modelle der Monetarisierung von Bildern gegenüber. Für die KI-Unternehmen ist das Ignorieren von Urheberrechten die Geschäftsgrundlage: Es sei schlicht unmöglich, so Midjourney-CEO David Holz, hunderte Millionen Bilder aus dem Netz zu saugen und bei jedem einzelnen die Herkunft zu wissen. Doch genau das ist das Geschäftsmodell von Bildagenturen wie Getty, die 80 Millionen Bilder verwalten und nicht nur bei jedem Bild genau wissen, wie es um die Rechte bestellt ist, sondern auch versuchen, die Nutzung zu kontrollieren.
Dahinter stehen zwei unvereinbare Sichtweisen auf den Wert von Bildern: Für Bildagenturen hat jedes einzelne Bild in ihrem Bestand einen genau bezifferbaren Wert, da sie ihr Geld mit dem Verkauf von Nutzungsrechten verdienen. Für Open AI, Midjourney und Stable Diffusion hingegen hat das einzelne Bild keinen Wert, außer als Quelle extrahierbarer Datenmuster, die erst durch die Analyse großer Bildermengen verwertbar werden. Was sie verkaufen, sind keine Lizenzen für vorhandene Bilder, von individuellen Autor*innen geschaffen, sondern Optionen auf mögliche Bilder, gewonnen aus der Aneignung der kollektiven Kreativität von Millionen.
Verwertung nutzt nicht den Kreativen
Man sollte jedoch nicht allzu viel Hoffnung auf das Urheberrecht setzen. Welche Entscheidungen und Kompromisse auch immer am Ende stehen, für Künstler*innen und Kreative gibt es in diesen Prozessen nicht viel zu gewinnen. Selbst wenn die KI-Firmen künftig für die Nutzung der Rechte bezahlen, werden die Lizenzgebühren wohl so verschwindend gering ausfallen, dass nur große Rechteinhaber wie Getty davon profitieren. Die notwendige Kritik der KI-Bilder sollte daher nicht einfach ein früheres Modell der Kommerzialisierung menschlicher Kreativität romantisieren.
Keine Frage, KI-Bildgenerierung, zumindest in ihrer derzeit verfügbaren Form, ist strukturell diskriminierend, basiert auf der Ausbeutung und Entwertung menschlicher Arbeitskraft und verbraucht nicht zuletzt riesige Mengen Energie. Sie ist, anders gesagt, ein typisches Produkt des extraktiven Kapitalismus. Und doch ist es schwer, sich ihrer Faszination zu entziehen. KI-Bildgenerierung ist ein Klischeeverstärker, aber eben darum kann sie die Stereotype, die unsere visuelle Kultur beherrschen, auch sichtbar machen und auf häufig überraschende, wenn nicht gar subversive Weise rekombinieren. Sie basiert auf der massenhaften Aneignung menschlicher Kreativität, aber eben darum gibt sie uns eine Vorstellung davon, was es bedeuten könnte, Kreativität nicht als bloß individuelle Fähigkeit zu betrachten, sondern als kulturelle Ressource, die kollektiv erforscht werden kann.
Das »nd« bleibt. Dank Ihnen.
Die nd.Genossenschaft gehört unseren Leser*innen und Autor*innen. Mit der Genossenschaft garantieren wir die Unabhängigkeit unserer Redaktion und versuchen, allen unsere Texte zugänglich zu machen – auch wenn sie kein Geld haben, unsere Arbeit mitzufinanzieren.
Wir haben aus Überzeugung keine harte Paywall auf der Website. Das heißt aber auch, dass wir alle, die einen Beitrag leisten können, immer wieder darum bitten müssen, unseren Journalismus von links mitzufinanzieren. Das kostet Nerven, und zwar nicht nur unseren Leser*innen, auch unseren Autor*innen wird das ab und zu zu viel.
Dennoch: Nur zusammen können wir linke Standpunkte verteidigen!
Mit Ihrer Unterstützung können wir weiterhin:
→ Unabhängige und kritische Berichterstattung bieten.
→ Themen abdecken, die anderswo übersehen werden.
→ Eine Plattform für vielfältige und marginalisierte Stimmen schaffen.
→ Gegen Falschinformationen und Hassrede anschreiben.
→ Gesellschaftliche Debatten von links begleiten und vertiefen.
Seien Sie ein Teil der solidarischen Finanzierung und unterstützen Sie das »nd« mit einem Beitrag Ihrer Wahl. Gemeinsam können wir eine Medienlandschaft schaffen, die unabhängig, kritisch und zugänglich für alle ist.