125 20 56MB
German Pages [319] Year 2024
Impressum Dieses E-Book ist ein Verlagsprodukt, an dem viele mitgewirkt haben, insbesondere:
Lektorat Ruth Lahres Korrektorat Petra Bromand, Düsseldorf Herstellung E-Book Vera Brauner Layout Christine Netzker Covergestaltung Mai Loan Nguyen Duy Coverbild erstellt mit Midjourney und Adobe Photoshop Satz E-Book Christine Netzker
Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. ISBN 978-3-8362-9800-1 1. Auflage 2024 © Rheinwerk Verlag GmbH, Bonn 2024 www.rheinwerk-verlag.de
Liebe Leserin, lieber Leser, haben Sie auch dieses mulmige Gefühl, wenn Sie an das Thema Künstliche Intelligenz denken? Einerseits finde ich es ja unglaublich spannend, welche Möglichkeiten sich hier eröffnen, aber andererseits bin ich auch unsicher, ob KI nicht vielleicht bald meinen Job als Lektorin überflüssig machen wird. In der Kreativbranche geht es Ihnen sicherlich genauso: Da fragt man sich, ob KI bald schneller und preiswerter Logos, Corporate Designs, Infografiken oder Cover entwerfen wird als ein Grafikdesigner oder eine Illustratorin. Gegen diese Unsicherheit hilft nur eins: Wissen. »Wissen ist Macht«, sagte schon Francis Bacon im Zeitalter der Aufklärung. Denn Wissen macht uns stark und nimmt uns die Angst. Informieren wir uns also über KI, beispielsweise mithilfe dieses Buchs. Jenny Habermehl setzt sich schon seit langem mit dem Thema Künstliche Intelligenz auseinander und präsentiert es uns hier allgemeinverständlich und mit Blick auf die Chancen, aber auch auf die Risiken. Denn Chancen bieten die neuen KI-Tools zuhauf: Sie können uns langweilige Routineaufgaben abnehmen und uns inspirierend zur Seite stehen. Lesen Sie beispielsweise das Kapitel 2 mit den Möglichkeiten, die KI im Zusammenhang mit klassischen Kreativitätstechniken bietet – das ist genial. Oder lassen Sie sich bei Briefings, Präsentationen, der Erstellung von Mockups und Moodboards, bei der Optimierung von Bildmaterial und vielem mehr helfen. Integrieren Sie KI also in Ihren Design-Workflow – es wird Ihre Arbeit erleichtern. Was ich besonders am Buch mag, sind die vielen KI-generierten Beispielbilder. Hier sehen Sie sofort, was mit einem gut aufgestellten Prompt alles möglich ist – und was noch nicht funktioniert. Ein geschicktes Prompten verlangt Vorwissen – aber mit den Tipps und Hinweisen der Autorin werden Sie bald genau die Ergebnisse erzielen können, die Sie sich vorstellen. Wenn Sie noch Fragen, Anregungen Lob oder Kritik zum Buch haben, so freue ich mich auf Ihre E-Mail – und wünsche Ihnen nun viele neue Erkenntnisse. Ihre Ruth Lahres Lektorat Rheinwerk Design [email protected] www.rheinwerk-verlag.de Rheinwerk Verlag • Rheinwerkallee 4 • 53227 Bonn
Inhalt
KAPITEL 1
Künstliche Intelligenz – eine Einführung KI – ein neues Werkzeug ...................................................................................... 12 Ist Künstliche Intelligenz intelligent? ..................................................................... 13 Was hat Künstliche Intelligenz mit einem Hammer zu tun? ................................. 14 Künstliche Intelligenz verstehen ........................................................................ 18 Algorithmen .............................................................................................................. 19 Generative KI ........................................................................................................... 20 Bilder mit KI generieren .......................................................................................... 23 KI und unsere Sprache ............................................................................................ 25 Einschränkungen und Probleme von KI-Systemen .......................................... 29 Die Angst vor der KI ................................................................................................. 29 Shit in, shit out – Probleme beim Prompting ......................................................... 33 KI als Werkzeug für Generalisten? ......................................................................... 36 Formen und Schnittstellen von KI ...................................................................... 39 Mensch-Maschine-Interaktion ............................................................................... 40 Schnittstellen – wie nutzen wir KI? ........................................................................ 44 Relevanz von KI im Designbereich ...................................................................... 46 Warum KI im Designbereich eine größere Rolle einnimmt .................................. 46 Welchen Wert haben die generierten Inhalte? ..................................................... 47
KAPITEL 2
Künstliche Intelligenz und Kreativität Ist KI kreativ? ......................................................................................................... 52 Was ist Kreativität eigentlich? ................................................................................. 53 Menschliche Kreativität vs. KI-Kreativität .............................................................. 55 Ist Schönheit berechenbar? .................................................................................... 58 PRAXIS KI-Bilder auf Kompositionsregeln analysiert ........................................ 61
4 | Inhalt
Auswirkungen von KI auf die eigene Kreativität .............................................. 65 Kann KI die eigene Kreativität hemmen? ............................................................... 65 KI als Sandbox der eigenen Kreativität .................................................................. 69 KI schafft Distanz zum gestalterischen Ego ........................................................... 73 KI als Ideenmaschine ........................................................................................... 75 Klassische Kreativitätstechniken ............................................................................ 75 KI und Kreativitätstechniken miteinander verbinden ........................................... 77 PRAXIS Kreativbriefing mit ChatGPT ................................................................... 78 KI in der Ideenfindung: weitere Techniken ............................................................ 89 PRAXIS Storytelling mit ChatGPT ......................................................................... 92 PRAXIS Design Thinking mit ChatGPT ................................................................. 94 Ist KI nun kreativ? ................................................................................................. 96
KAPITEL 3
KI im Designworkflow einsetzen Ansätze zur Integration von KI ............................................................................ 100 Ansatz 1: Prozesszentriertes Arbeiten mit KI ........................................................ 102 PRAXIS Moodboards mit Midjourney .................................................................. 106 Ansatz 2: Problemorientierter Einsatz von KI ........................................................ 110 PRAXIS Beispiele zur Anwendung von ChatGPT in der Konzeptionsphase ...... 112 Fazit zur Implementierung von KI in den Kreativworkflow ................................... 114 KI-Tools mit System auswählen .......................................................................... 115 Art des Modells (Bild, Text, Video, multimodal …) ................................................. 116 Marktführer, Startups/Entwickler oder Open Source? .......................................... 119 Grad der gewünschten Individualisierung ............................................................. 122 Technische Voraussetzungen und Möglichkeiten ................................................. 124 Herkunft der Trainingsdaten, Datenschutz, Ethik .................................................. 125 Preismodell und Kosten .......................................................................................... 126 Fazit zur Auswahl der richtigen KI-Modelle ........................................................... 128 Fünf Erkenntnisse aus meiner Arbeit mit KI .......................................................... 129
Inhalt | 5
KAPITEL 4
Prompting für generative KI Einführung in das Prompting ................................................................................ 132 Prompting-Grundlagen ............................................................................................ 134 PRAXIS Promptgenerator für Bild-KI im Test ..................................................... 138 Textprompts für Textgeneratoren (Text to Text) .................................................... 140 Textprompts für Bildgeneratoren (Text to Image) ................................................ 142 PRAXIS Ein Prompt – verschiedene KI-Modelle ................................................. 144 Bildprompts (Image to Image/Video/Text) ........................................................... 146 Bild- und Textprompts gleichzeitig verwenden ..................................................... 148 Prompting mit Emojis .............................................................................................. 152 Prompting für Fortgeschrittene ........................................................................... 153 Bildgestaltung mit Fachbegriffen ............................................................................ 153 Negativprompts ....................................................................................................... 155 Parameter ................................................................................................................. 157 PRAXIS Seeds und ihren Einfluss auf das Ergebnis verstehen .......................... 160 Weitere Prompttechniken und Ideen ..................................................................... 164 PRAXIS Prompts mit Midjourney kürzen lassen ................................................. 167 Eigenheiten der KI-Modelle nutzen lernen ............................................................ 169
KAPITEL 5
KI-Programme im Kreativalltag Midjourney ............................................................................................................... 172 Zugang zur KI ........................................................................................................... 172 Nutzung der KI ......................................................................................................... 173 Erste Schritte mit Midjourney .................................................................................. 174 Erweiterte Techniken im KI-Prompting .................................................................. 177 PRAXIS Nahtlose Muster generieren ................................................................... 184 PRAXIS Konsistenter Stil mit Midjourney ............................................................. 188 Meine Tipps und Erfahrungen ................................................................................. 194 PRAXIS Model V6 [ALPHA] .................................................................................... 195 ChatGPT 4.0 ............................................................................................................ 200 Zugang zur KI ........................................................................................................... 200 Nutzung der KI ......................................................................................................... 200 Erste Schritte mit ChatGPT ..................................................................................... 202 Erweiterte Techniken im KI-Prompting .................................................................. 203
6 | Inhalt
PRAXIS Präsentationen mit Hilfe von KI erstellen ............................................. 205 PRAXIS Designs mit ChatGPT entwerfen ............................................................ 208 PRAXIS Eigene GPTs erstellen ............................................................................. 211 Meine Tipps und Erfahrungen ................................................................................. 217 Adobe Firefly (Webanwendung) .......................................................................... 218 Zugang zur KI ........................................................................................................... 219 Nutzung der KI ......................................................................................................... 219 PRAXIS Mit Schrift arbeiten .................................................................................. 220 Erste Schritte mit Adobe Firefly .............................................................................. 222 Erweiterte Techniken im KI-Prompting .................................................................. 224 PRAXIS Produktfotografie mit Hilfe von Firefly ................................................... 226 Meine Tipps und Erfahrungen ................................................................................. 228 Adobe Photoshop (Firefly) .................................................................................... 229 Zugang zur KI ........................................................................................................... 229 Nutzung der KI ......................................................................................................... 229 Erste Schritte mit Firefly in Photoshop ................................................................... 230 Erweiterte Techniken im KI-Prompting .................................................................. 231 Meine Tipps und Erfahrungen ................................................................................. 231 PRAXIS Bildbearbeitung in Photoshop mit KI ..................................................... 233 Adobe Illustrator (Firefly) ..................................................................................... 236 Zugang zur KI ........................................................................................................... 236 Nutzung der KI ......................................................................................................... 236 Erste Schritte mit Firefly in Illustrator .................................................................... 236 Erweiterte Techniken im KI-Prompting .................................................................. 244 Meine Tipps und Erfahrungen ................................................................................. 244 PRAXIS Eigene Mockups erstellen und nutzen ................................................... 245 DreamStudio by stability.ai .................................................................................. 248 Zugang zur KI ........................................................................................................... 248 Nutzung der KI ......................................................................................................... 249 Erste Schritte mit DreamStudio .............................................................................. 249 Erweiterte Techniken im KI-Prompting .................................................................. 251 PRAXIS Bildvarianten mit Bildprompts mit Stable Diffusion ............................. 256 Meine Tipps und Erfahrungen ................................................................................. 258 PRAXIS Vektorisieren von Pixelbildern mit Vectorizer.ai ................................... 259 PRAXIS Mit Magnific AI Bilder interpolieren und verbessern ............................ 260 Runway .................................................................................................................... 263 Zugang zur KI ........................................................................................................... 263 Nutzung der KI ......................................................................................................... 263
Inhalt | 7
Erste Schritte mit Runway ....................................................................................... 264 Erweiterte Techniken ............................................................................................... 267 Meine Tipps und Erfahrungen ................................................................................. 268 PRAXIS Weitere KI-Video-Tools ........................................................................... 269
KAPITEL 6
Recht und Ethik Rechtliches in Verbindung mit KI ........................................................................ 272 Urheberrecht ............................................................................................................ 273 Nutzungsrecht .......................................................................................................... 280 Datenschutz ............................................................................................................. 282 Ethik und Umwelt ................................................................................................... 284 Ethische Herausforderungen .................................................................................. 284 PRAXIS Diversität und KI ...................................................................................... 287 Nachhaltigkeit .......................................................................................................... 288 KI und der Mensch ................................................................................................... 291 KI und Unternehmen ............................................................................................... 292
KAPITEL 7
KI als zukünftige Designassistenz Das digitale Dilemma ............................................................................................ 296 Wichtige Fragen über die Zukunft mit KI ............................................................... 297 Herausforderungen in der Anwendung von KI ...................................................... 301 Mögliche Entwicklungen in der Zukunft ............................................................. 302 Ein erstes Fazit ....................................................................................................... 303
Glossar ..................................................................................................................... 306 Überblick über die im Buch verwendeten KI-Modelle .................................... 309 Index ........................................................................................................................ 310
8 | Inhalt
Die Praxisbeispiele des Buchs Midjourney PRAXIS Moodboards mit Midjourney ................................................................... 106 PRAXIS Promptgenerator für Bild-KI im Test ..................................................... 138 PRAXIS Seeds und ihren Einfluss auf das Ergebnis verstehen .......................... 160 PRAXIS Prompts mit Midjourney kürzen lassen ................................................. 167 PRAXIS Nahtlose Muster generieren ................................................................... 184 PRAXIS Konsistenter Stil mit Midjourney ............................................................. 188 PRAXIS Model V6 [ALPHA] .................................................................................... 195 PRAXIS Präsentationen mit Hilfe von KI erstellen ............................................. 205 PRAXIS Diversität und KI ...................................................................................... 287
Adobe Firefly, Photoshop und Illustrator PRAXIS Produktfotografie mit Hilfe von Firefly ................................................... 226 PRAXIS Bildbearbeitung in Photoshop mit KI ..................................................... 233
ChatGPT PRAXIS Kreativbriefing mit ChatGPT ................................................................... 78 PRAXIS Storytelling mit ChatGPT ......................................................................... 92 PRAXIS Design Thinking mit ChatGPT ................................................................. 94 PRAXIS Beispiele zur Anwendung von ChatGPT in der Konzeptionsphase ...... 112 PRAXIS Designs mit ChatGPT entwerfen ............................................................ 208 PRAXIS Eigene GPTs erstellen ............................................................................. 211
Verschiedene KI-Tools PRAXIS KI-Bilder auf Kompositionsregeln analysiert ........................................ 61 PRAXIS Ein Prompt – verschiedene KI-Modelle ................................................. 144 PRAXIS Präsentationen mit Hilfe von KI erstellen ............................................. 205 PRAXIS Mit Schrift arbeiten .................................................................................. 220 PRAXIS Eigene Mockups erstellen und nutzen ................................................... 245 PRAXIS Bildvarianten mit Bildprompts mit Stable Diffusion ............................. 256 PRAXIS Vektorisieren von Pixelbildern mit Vectorizer.ai ................................... 259 PRAXIS Mit Magnific AI Bilder interpolieren und verbessern ............................ 260 PRAXIS Weitere KI-Video-Tools ........................................................................... 269
Inhalt | 9
/imagine a scene from a film directed by Peter Jackson, showing a scene from the future of a graphic designer working with futuristic tools and artificial intelligence, photorealistic, high detail --ar 3:2
KAPITEL 1
Künstliche Intelligenz – eine Einführung
KAPITEL 1
Künstliche Intelligenz – eine Einführung Künstliche Intelligenz, abgekürzt »KI«, ist mittlerweile in allen Branchen angekommen. Auch die Kreativbranche erfährt dadurch große Veränderungen. KI ist überall: in unseren Computern, Autos, Smartphones, in unseren Haushaltsgeräten und immer mehr in unseren Designprogrammen. Bis ins Jahr 2022 war KI still und leise im Hintergrund, denn sie hat uns Menschen unterstützt und begleitet – manchmal sogar manipuliert –, ohne dass wir viel davon mitbekommen haben. Doch als OpenAI 2022 mit ChatGPT an die Öffentlichkeit gegangen ist, hat sich unsere Wahrnehmung von KI in der Kreativbranche verändert. Es folgten Midjourney, Stable Diffusion, DALL-E und mehr: Alle haben seitdem einen enormen Entwicklungssprung gemacht, und der tägliche Einsatz von generativen KI-Systemen (was das bedeutet, erfahren Sie noch in diesem Kapitel) ist nicht mehr nur Fiktion, sondern Realität geworden.
KI – ein neues Werkzeug Bevor wir uns in die Möglichkeiten stürzen, die KI für uns Kreative bieten kann, widmen wir uns zunächst dem Verständnis dieser Technologie. Auch wenn wir täglich davon berichtet bekommen, ist die Funktionsweise von KI weniger bekannt. Stand jetzt müssen wir nicht mehr programmieren lernen, um KI zu nutzen oder sogar zu trainieren. Aber es ist von Vorteil zu verstehen, was KI eigentlich ist und wie sie funktioniert – um sie anschließend sinnvoll in unseren Arbeitsalltag zu integrieren. Denn mit dem Wissen über KI-Systeme sind auch deren Grenzen und Möglichkeiten besser erkennbar. Und es sichert uns ein besseres Verständnis in der doch recht emotional aufgeladenen Debatte über KI. KI kurz erklärt Künstliche Intelligenz (KI) ist ein Bereich der Informatik, der sich mit der Schaffung von Maschinen oder Programmen befasst, die Aufgaben ausführen können, welche typischerweise menschliche Intelligenz erfordern, wie das Lernen aus Erfahrungen, das Verstehen von Sprache, das Erkennen von Mustern und das Treffen von Entscheidungen.
12 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Ist Künstliche Intelligenz intelligent? Das scheinen sich viele zu fragen, wenn man einmal die Liste der Vorschläge in der Google-Suche betrachtet. Ähnlich wie der Versuch, Kreativität zu erklären, ist die Definition von Intelligenz kein einfaches Unterfangen. Wir haben eine Ahnung davon, was es bedeutet, aber bisher konnte das menschliche Gehirn nicht vollumfänglich entschlüsselt werden. Daher kann der Begriff »Künstliche Intelligenz« in die Irre führen. Nur, weil etwas intelligent wirkt, bedeutet das nicht, dass es auch intelligent ist. Was ist Intelligenz? Intelligenz ist die Fähigkeit eines Individuums, zu lernen, zu verstehen, Probleme zu lösen, sich anzupassen und neues Wissen zu erwerben. Diese Definition basiert auf einer allgemeinen psychologischen Perspektive, die von verschiedenen Theoretikern und Forschern wie Jean Piaget und Howard Gardner beeinflusst wurde. Intelligenz ist mit kognitiven Funktionen wie Gedächtnis, Logik, Verständnis und der Fähigkeit, Wissen anzuwenden, verbunden. Es gibt unterschiedliche Theorien und Ansätze zur Definition und Messung von Intelligenz, was zu verschiedenen Auffassungen in diesem Bereich führt.
Gibt man den Suchbegriff »ist Künstliche Intelligenz« bei der Google-Suche ein, kommen die meistgesuchten Begriffe zu diesem Thema als Vorschlag.
Um zu verstehen, ob KI intelligent ist, betrachten wir einmal, warum sie auf uns so intelligent wirkt. Wer bereits erste Erfahrungen mit einem der aktuellen Sprachmodelle gemacht hat, konnte sich selbst überzeugen, wie gut KI bereits menschliche Intelligenz simulieren kann. Und man konnte sich auch davon überzeugen, dass die KI doch nicht alles besser kann als wir Menschen. Bis zu einem gewissen Punkt funktioniert es prima, doch immer wieder scheinen KI-Systeme an vermeintlich »einfachen« Aufgaben zu scheitern. Und das mit einem fast schon naiven Selbstbewusstsein, dass das Ergebnis auch genau das ist, was von ihr verlangt wurde. KI-Systeme zeigen Logik, Verständnis und können vorhandenes Wissen auf neue Aufgaben anwenden. Doch KI »versteht« nicht so, wie wir Menschen es können. Für manche ist KI wie ein Papagei, der einfach das nachplappert, was man ihm vorher antrainiert hat. Für andere ist KI eine Möglichkeit, ganz Neues zu lernen und zu entdecken. Trotzdem haben KI-Systeme keinen eigenen Antrieb, intelligenter oder besser
KI – ein neues Werkzeug | 13
zu werden. KI tut nur das, was ihr antrainiert und einprogrammiert wurde. Ihr fehlt das Bewusstsein. Deshalb liegt die Schlussfolgerung sehr nahe, dass der Begriff »Künstliche Intelligenz« nicht bedeutet, dass es sich bei den heutigen KI-Systemen um tatsächlich intelligente Wesen handelt, sondern mehr um Programme, die ein intelligentes Wesen simulieren. Ist KI ein Spiegel des menschlichen Gehirns? Die kurze Antwort lautet: ein bisschen. Es gibt neben dem Entwickeln von KI-Systemen – die uns Menschen sehr ähneln – auch die Versuche, durch neuronale Netze Rückschlüsse auf das menschliche Denken zu ziehen. Neuronale Netzwerke sind wie ein vereinfachtes Modell unseres Gehirns. Sie bestehen aus drei Hauptteilen: den Input- Neuronen, den Hidden-Layern und dem Output-Layer. Die Input-Neuronen sind wie Eingangstore, die Informationen aus Daten aufnehmen. Diese Informationen werden dann zu den Hidden-Layern geschickt. Diese versteckten Schichten arbeiten wie das Gehirn bei der Verarbeitung von Informationen – sie analysieren und verarbeiten die Daten. Zum Schluss kommen die Informationen im Output-Layer an, der das Endergebnis ausgibt, ähnlich wie wenn wir eine Entscheidung treffen oder etwas verstehen. Diese Ähnlichkeit zu den Prozessen in unserem Gehirn macht KI aber nicht zu einem intelligenten Wesen – da gehören noch mehr Eigenschaften dazu. Solange KI keinen eigenen Willen entwickelt und nicht aus eigenem Antrieb heraus neue Dinge lernt, bleibt sie ein Vereinfachte Darstellung eines neuro Programm, das uns in vielen Dingen unterstützen kann. nalen Netzwerks und seiner Layer Da der Begriff »Künstliche Intelligenz« jedoch bereits fest im Sprachgebrauch verankert ist und wir wissen, was damit gemeint ist, bleiben wir dabei. Aber es ist nicht immer vom Namen auf den Inhalt zu schließen – das haben wir bereits in vielen anderen Bereichen gelernt. Verabschieden wir uns also von der Vorstellung, dass KI ein übermenschliches und undurchdringliches Konstrukt ist. KI ist eher wie ein Hammer.
Was hat Künstliche Intelligenz mit einem Hammer zu tun? Wir Menschen haben durch die Nutzung von Werkzeugen Großes geleistet. Was mit einfachen Handwerkzeugen begonnen hat, hat uns heute das Leben mit all seinen Annehmlichkeiten ermöglicht. Tagtäglich nutzen wir alle möglichen Werkzeuge. Auch der Computer ist ein Werkzeug, wie auch die zahlreichen Programme, die wir auf dem Computer nutzen. Und diese Programme nutzen heute immer mehr KI, um gewisse Funktionen zu bieten.
14 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Was verstehen wir unter einem Werkzeug? Auf Wikipedia finden wir eine sehr passende Definition: »Ein Werkzeug ist ein nicht zum Körper eines lebenden oder künstlichen Organismus gehörendes Objekt, mit dessen Hilfe die Funktionen des Körpers erweitert werden, um auf diese Weise ein unmittelbares Ziel zu erreichen.«
Bilder generiert mit Midjourney
Werkzeuge hinterfragen nicht. Ein Hammer stellt sich nicht selbst in Frage oder wofür er eingesetzt wird. Er kann genutzt werden, um etwas Neues zu erschaffen oder etwas Bestehendes zu reparieren oder zu verbessern. Aber man kann mit ihm auch etwas zerstören oder andere verletzen. Für uns ist er nur ein Gegenstand, ohne Möglichkeiten zur Kommunikation. Und er fragt sich auch nicht, ob es okay für ihn ist, wenn wir ihn für welchen Zweck auch immer einsetzen.
Ein Hammer ist und bleibt ein Hammer. Wir würden nicht auf die Idee kommen, dass er uns Menschen irgendwann ersetzen könnte.
KI ist wie ein moderner Hammer. Man kann sie als Werkzeug nutzen, um etwas zu erschaffen, zu verbessern oder zu reparieren – aber auch, um etwas zu zerstören oder andere zu verletzen. Dazu später mehr, wenn wir uns mit Recht und Ethik zu dem Thema beschäftigen (siehe Kapitel 6). Sie selbst interessiert es recht wenig, für was sie genau eingesetzt wird – wie der Hammer. Oder ob das, was sie uns an Ergebnissen liefert, auch zu unserem Zweck dient. Ihre Bedeutung für unsere Arbeit und die Art der Nutzung bestimmen wir Menschen selbst. KI wirkt menschlich KI erscheint uns – im Gegensatz zum Hammer – allerdings menschlich, auch wenn der aktuelle Stand der Technik lautet, dass KI keinen eigenen Willen oder Gefühle hat.
KI – ein neues Werkzeug | 15
Tatsächlich hilft diese Vermenschlichung in der Zusammenarbeit mit KI, z. B. beim Informationsaustausch über einen Chat oder beim Einsatz von KI in der Kundenbetreuung oder als Assistent in unseren Smartphones oder in unseren Programmen. Wir Menschen haben KI auf Menschlichkeit programmiert, und mittlerweile kann KI uns sehr gut nachahmen, mit uns kommunizieren und damit leider auch täuschen. Heutige KI-Systeme bestehen locker den Turing-Test, der vor einigen Jahren nur von ganz wenigen KIs bestanden wurde. Der Turing-Test überprüft, ob eine Maschine ein dem Menschen gleichwertiges Denkvermögen hat. Diese Art von Test ist kein Maßstab mehr, und KI wird in verschiedenen Studien mit für Menschen entwickelten Tests auf Intelligenz und Kreativität geprüft und erzielt beeindruckende Ergebnisse. Auch KIgenerierte Bilder und Texte sind von ihren menschengemachten Gegenstücken kaum noch zu unterscheiden. Es ist nicht verwunderlich, dass sich manche von der Existenz von KI bedroht fühlen.
Bilder generiert mit Midjourney
KI – für die meisten ein abstraktes Konstrukt Den Hammer können wir anfassen, begreifen. KI gibt es in so vielen verschiedenen Formen, dass sie nicht greifbar ist, außer sie steckt in Humanoiden, die wir aus ScienceFiction-Filmen kennen. Daher ist die beliebteste Darstellung von KI in den Medien die eines Roboters oder einer Mischung aus Mensch und Maschine. Diese Darstellung macht KI weniger abstrakt, verstärkt aber die Vermenschlichung dieser Programme. Für das Cover dieses Buchs haben wir daher absichtlich darauf verzichtet, denn gerade im Kreativbereich ist es eine Herausforderung, KI auf verschiedene Arten und Weisen darzustellen.
Besonders beliebt: Die Darstellung von KI mittels humanoider Roboter (links) oder einer Art Cyborg (rechts) – eine Verschmelzung von Mensch und Maschine. Dies hat eine Vermenschlichung zur Folge und führt damit zu dem Dilemma eines unfairen Vergleichs.
16 | Kapitel 1: Künstliche Intelligenz – eine Einführung
KI kann vieles sehr gut und in einer Geschwindigkeit, mit der wir Menschen nicht mehr mithalten können. Ob sie es besser kann, liegt immer im Auge des Betrachters oder des Nutzers. Dieser Eindruck wird leider durch reißerische und provokante Schlagzeilen sowie Medienberichte verstärkt, und plötzlich wird ein Werkzeug zu einem emotionalen oder sogar bedrohlichen Thema. Die Menschheit ist in diesem Thema gespalten: Es gibt diejenigen, die total begeistert sind und KI bereits einsetzen, wo sie nur können – und die anderen, die Angst, Bedenken, ja sogar Wut haben und fühlen. Dann gibt es auch noch Gleichgültigkeit, Unsicherheit, unrealistische Erwartungen, Überforderung und vieles mehr. Durch die zusätzliche Vermenschlichung der KI schaffen wir uns ein Ebenbild oder sogar ein Feindbild – je nach Blickwinkel. Wir vergleichen uns dadurch automatisch mit der KI. Das kann zu einer zusätzlichen Belastung werden und zu einer Ablehnungshaltung gegenüber KI führen. Ein Vergleich zwischen Mensch und Werkzeug ist unfair Wir haben KI mit einem Hammer verglichen, und der Vergleich zwischen KI und Mensch wird immer wieder diskutiert. Doch dann müssten wir uns mit Werkzeugen aller Art vergleichen, z. B. mit einem Hammer. Der Vergleich zwischen einem Hammer und uns Menschen wirkt dann allerdings ziemlich absurd. Wir sind alles anMit KI können wir dere als bestürzt, dass wir mit bloßen Händen keinen Nagel in die Wand uns selbst erweibekommen. Niemand fühlt sich dadurch in seiner Existenz als Mensch betern oder Lösungen droht.
finden, zu denen wir vorher nicht fähig waren.
So sollten wir es auch mit KI handhaben: Mit KI können wir uns selbst erweitern oder Lösungen finden, zu denen wir vorher nicht fähig waren. So wie mit fast allen Werkzeugen, die wir Menschen heute so nutzen. Die einen greifen lieber zu diesen Werkzeugen, die anderen zu jenen. Je nach Präferenz und auch Können sind Werkzeuge mehr oder weniger hilfreich. Das bedeutet aber auch, dass wir erst lernen müssen, wie man ein Werkzeug richtig nutzt. Nur einen Hammer zu verwenden reicht nicht, und vielleicht ist der Hammer gerade nicht die beste Lösung für das Problem, das ich angehen möchte. Welches Werkzeug könnte mir die Arbeit erleichtern und warum? Diese Frage sollten wir uns bei allem stellen, bevor wir an neue Projekte gehen. Das Werkzeug ist das Mittel zum Zweck, nicht der Zweck selbst.
Ohne Werkzeuge kommen wir nicht weiter im Leben. Und im Laufe der Menschheitsgeschichte haben wir unsere Werkzeuge stetig weiterentwickelt. Auch wenn KI sehr viel mehr als ein Hammer kann, ist sie ein Werkzeug, das wir privat wie auch beruflich nutzen können, um uns das Leben einfacher zu machen. Niemand muss KI nutzen, aber sie ist schon längst Teil unseres Alltags geworden. Wenn man sie richtig einsetzt, kann KI eine Bereicherung des Alltags werden und die eigene Kreativität beflügeln. Sie kann aber auch hinderlich sein. Lassen Sie uns in diesem Buch gemeinsam entdecken,
KI – ein neues Werkzeug | 17
Bild generiert mit Midjourney
welche Möglichkeiten, aber auch Probleme es bei der Nutzung von KI gibt, damit Sie selbst entscheiden können, ob und wie Sie sie in Ihrem kreativen Arbeitsalltag einsetzen möchten.
Ein Urzeitmensch mit einem MacBook in seiner Höhle – generiert mit Midjourney. Höchstwahrscheinlich wäre dieses mächtige Werkzeug zu dieser Zeit wertlos gewesen. Damals verfügten die Menschen noch nicht über die Fähigkeit, solche komplexen »Tools« zu nutzen. Damit soll veranschaulicht werden, dass es nicht auf das Werkzeug alleine ankommt, sondern die Nutzer*innen dieses Werkzeugs sind die treibende Kraft. Und auch diese brauchen Zeit, sich an neue Technologien anzupassen und zu lernen.
Künstliche Intelligenz verstehen Um KI zu verstehen, ist es sinnvoll, sich mit den technischen Grundlagen auseinanderzusetzen. Es gibt verschiedene KI-Systeme bzw. -Modelle mit den unterschiedlichsten Fähigkeiten wie der Analyse und dem Kategorisieren von Daten, dem Verstehen von Sprache oder dem Steuern von Prozessen und Maschinen. KI-Systeme können natürlich auch mehrere dieser Fähigkeiten vereinen. Diese werden dann auch als »multimodale KI« bezeichnet, was nichts anderes heißt als die Verarbeitung mehrerer Datenquellen zum Erfüllen verschiedener Aufgabenfelder. Die meisten KI-Systeme sind in einem begrenzten Aufgabenbereich sehr gut. Man nennt dies auch einfache oder schwache KI. Das bedeutet, dass ein KI-System, das komplexe Maschinen in einer Autofabrik steuert, keinen lustigen Werbetext für eine
18 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Anzeige generieren kann und auch nicht muss. Weil sie nur diese eine Aufgabe hat: das Bedienen von Maschinen. Wir Menschen könnten das, mit einer gewissen Ausbildung, schon. Schwache KI vs. starke KI Künstliche Intelligenz wird in »schwache KI« und »starke KI« unterteilt. Eine »schwache KI« ist gut in einem Gebiet. Eingesetzt in Maschinen kann sie eigenständig Lösungswege finden, indem sie vorgegebene Algorithmen verändert oder eigene entwickelt. Eine »starke KI«, auch Superintelligenz genannt, würde über die gleichen intellektuellen Fähigkeiten wie Menschen verfügen, was bisher nicht existiert. Diese KI müsste ihre Kenntnisse in dem einen Gebiet, für das sie programmiert wurde, eigenständig auf andere Gebiete anwenden können, ebenso wie wir Menschen.
Algorithmen Die Grundlage eines KI-Systems oder -Modells bildet ein Algorithmus, ein Begriff, der vielen bereits aus sozialen Medien und Suchmaschinen vertraut ist. Diese Algorithmen bestimmen z. B., was in unseren Online-Feeds erscheint, indem sie aus unserem Surfverhalten lernen. Basierend auf diesen Informationen schlagen sie uns dann ähnliche Inhalte vor, um uns möglichst lange auf der Plattform zu halten. Die Auswirkungen solcher Algorithmen auf unsere Kreativität werden wir im nächsten Kapitel näher beleuchten. Ein Algorithmus ist im Grunde genommen eine festgelegte Abfolge von Schritten, die zur Lösung eines spezifischen Problems befolgt werden. Täglich begegnen uns Algorithmen, nicht nur in der digitalen Welt. Sie sind definierte, wiederholbare Abläufe, die nach einer spezifischen Reihenfolge funktionieren. Das lässt sich gut mit einem Kochrezept für Spaghetti mit Tomatensauce vergleichen, bei dem die Schritte logisch aufeinander aufbauen (z. B. kann man Zwiebeln nicht braten, bevor sie nicht geschält und geschnitten sind) und das schließlich zu einem konkreten Ergebnis führt (Nudeln mit Sauce serviert auf einem Teller). Tatsächlich basiert unsere gesamte Welt in gewisser Weise auf solchen Algorithmen. Der erste Algorithmus Im Jahr 1843 hat die Wissenschaftlerin Ada Lovelace den ersten für einen Computer gedachten Algorithmus niedergeschrieben – lange bevor es Computer gab. Sie gehört zu den Pionieren der Computerwissenschaft und hat bereits damals vorhergesagt, dass Maschinen in Zukunft nicht nur rechnen werden, sondern auch Bilder, Wörter und Musik verarbeiten werden.
Künstliche Intelligenz verstehen | 19
Viele der heutigen KI-Modelle gründen auf Algorithmen, die in den 80er Jahren entwickelt wurden. Damals gab es noch nicht genug Rechenpower und Daten, um heutige Standards zu erreichen. Das hat sich mit dem Internet schlagartig verändert, und die Forschung konnte endlich vorangetrieben werden, was uns zu den heutigen KI-Modellen führt. Algorithmen, die in KI-Modellen verwendet werden, sind in Programmiersprachen wie Python geschrieben und bestehen aus mehreren Teilen, die festlegen, wie die KI funktionieren soll. Diese Algorithmen können von einfachen Anweisungen bis hin zu sehr komplexen Berechnungen reichen. Sie nutzen verschiedene Methoden, um Aufgaben wie das Erkennen von Bildern oder das Verstehen von Sprache zu bewältigen. Je nachdem, wie komplex die Aufgabe ist, kann der Aufbau des Algorithmus variieren, aber das Ziel ist immer, dass die KI ihre Aufgabe möglichst gut erledigt.
Generative KI Im Bereich der Gestaltung sprechen wir meistens von generativen KI-Modellen. Das sind Modelle, die auf menschliche Fertigkeiten trainiert wurden und dadurch Inhalte wie Texte, Bilder, Videos usw. erzeugen können. Dieses Buch legt den Fokus zwar auf die praktische Anwendung, aber um ein tieferes Verständnis für die Technologie zu erhalten, ist ein Überblick über die bekanntesten generativen KI-ModelJe besser wir unsere le nötig. Je besser wir unsere Werkzeuge kennen, desto beeindruckenWerkzeuge kennen, der werden unsere Ergebnisse sein!
desto beeindruckender werden unsere Ergebnisse sein.
Generative KI-Algorithmen werden in verschiedenen Bereichen eingesetzt, einschließlich der Erstellung künstlerischer Werke wie Bilder, Musik, Texte oder sogar der Entwicklung von Code. Sie sind in der Lage, kreative und innovative Ergebnisse zu liefern, die über das hinausgehen, was durch einfache Datenanalyse möglich wäre. Diese Algorithmen nutzen Techniken wie maschinelles Lernen und Mustererkennung, um aus vorhandenen Datenmengen zu lernen und dann neue, ähnliche Daten zu generieren. Ein Beispiel dafür ist ein Algorithmus, der auf Basis einer großen Menge an Texten lernt und anschließend in der Lage ist, neue Texte zu verfassen, die dem Stil und Inhalt der ursprünglichen Daten ähneln. Da es sehr viele verschiedene KI-Systeme gibt, beschränken wir uns in diesem Buch auf die drei wichtigsten generativen KI-Modelle, die uns Kreativschaffende am meisten betreffen und mit denen wir uns später in der Praxisanwendung beschäftigen werden:
J J J
Generative Adversarial Networks (kurz: GAN) Diffusion Model Large Language Models (kurz: LLM)
20 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Es ist nicht immer einfach, herauszufinden, welches Modell hinter welcher KI steckt, und manche vereinen sogar mehrere dieser Modelle unter einem Namen, wie z. B. multimodale KI wie Adobe Sensei GenAI oder Runway. Aber bei den bekanntesten Modellen ist die Verteilung folgendermaßen: J J J
GAN: StyleGAN (NVIDIA), Real-ESRGAN, CycleGAN u. a. Diffusion Model: z. B. Midjourney, Stable Diffusion, DALL-E LLM: ChatGPT, Google Bard, LLAMA u. a.
In den folgenden Abschnitten lernen Sie den Lernprozess und die Funktionsweise der einzelnen Modelle besser kennen. Zunächst aber noch einige Überlegungen dazu, wie generative KI lernt. So lernt generative KI Wie wir bereits wissen, beschreibt der Algorithmus lediglich die Methode, wie ein Rechenvorgang ausgeführt werden soll. Schauen wir uns also einmal genauer an, wie generative künstliche neuronale Netze (NN) lernen und Informationen verarbeiten. Der Überbegriff für diesen Lernprozess ist Machine Learning, das in verschiedene Prozesse gegliedert wird. Je nach Modell und Entwickler kann der Prozess etwas anders aus sehen. Machine Learning ist ein sehr komplexes Verfahren, aber grob zusammengefasst teilt sich der Lernprozess in das Unsupervised Learning (unüberwachtes Lernen) und das Supervised Learning (überwachtes Lernen). Dazu muss man Folgendes wissen: Das Besondere an KI sind die »Neuronen«, die wie Knotenpunkte in einem Netz aus weiteren Neuronen und Verbindungen funktionieren und in vielen Schichten, im Fachjargon »Layer« genannt, das künstliche neuronale Netz durchziehen. Ein Layer kann Hunderte oder Tausende Neuronen besitzen, die untereinander und mit weiteren Layern verknüpft sind. Der erste Layer ist der »Input-Layer«, der die Informationen bzw. Daten aufnimmt. Beim Unsupervised Learning verarbeitet die KI zunächst die ganzen Trainingsdaten und versucht, sich einen Reim darauf zu machen, basierend auf ihrer Programmierung. Diese Daten können z. B. Pixel eines Katzenfotos sein, wenn das Modell später auf allen möglichen Abbildungen Katzen erkennen bzw. eigene Katzenbilder generieren soll. Ein Pixel wird von einem Neuron erfasst. Die Information wird nun verarbeitet und zwischen den Hidden-Layern weitergereicht. Was genau zwischen diesen Hidden-Layern passiert, ist für den Menschen oft nicht nachvollziehbar. Das Trainingsmaterial wird hier Schicht für Schicht weiter abstrahiert, klassifiziert (Merkmale einer Katze, verschiedene Fellfarben usw.) und das Ergebnis dann an den Output-Layer weitergegeben, in dem das Katzenbild erkannt oder generiert wird. Dieser Prozess kann sich wiederholen, bis die KI verlässlichen Output liefert.
Künstliche Intelligenz verstehen | 21
Bild rechts mit DALL-E 3, links mit Midjourney generiert
Hat die KI genügend Trainingsdaten verarbeitet, kann eine weitere Phase, das Supervised Learning, angeschlossen werden. Hier wird nun überwacht, was als Input- und Outputwert herauskommt. Es wird also geschaut, welches Bild die KI als Input erhält (z. B. ein Bild eines Hundes) und welcher Output herauskommt, das heißt, ob die Maschine eine Katze auf dem Bild erkennt oder nicht. Es findet auf diese Weise eine Klassifizierung der Daten statt, die je nach Training und Trainingsmaterial genauer oder ungenauer ausfallen kann. Hier sind oft Menschen involviert, die nun die Ergebnisse der KI bewerten und gegebenenfalls korrigieren. Die KI lernt mit und weiß für die Zukunft, wie in unserem Beispiel, Hunde und Katzen besser zu unterscheiden.
Abstrakte Darstellungen eines neuronalen Netzwerks (NN). Die Punkte sind die Neuronen, und die feinen Strukturen sollen die Layer und Verknüpfungen darstellen, die innerhalb des NN entstehen.
Künstliche neuronale Netze können also nicht vollständig eigenständig lernen und brauchen dafür nicht nur viele und qualifizierte Trainingsdaten, sondern sind ebenfalls sehr auf die Hilfe von uns Menschen angewiesen. Ein Mensch würde eine Katze nicht nur auf einem Foto erkennen, sondern auch als abstrakte Zeichnung. Die KI, wenn sie nur mit Hilfe von Fotos trainiert wurde, hat damit ihre Probleme. Das macht uns erst einmal bewusst, mit wie vielen verschiedenen Daten moderne generative Modelle bereits trainiert worden sind und warum manch eine Abbildung nicht immer der Realität entspricht. Unsere Welt ist sehr komplex, und das, was KI bereits leisten kann, ist ein immenser Fortschritt im Vergleich zu den Modellen von vor ein paar Jahren. Die Abstände zu merklichen Verbesserungen dieser Systeme werden immer kürzer. Was alle Modelle gemeinsam haben: Es gibt einen bestimmten Input, es folgt innerhalb des Modells ein Prozess zwischen den Hidden-Layern, und am Ende gibt es einen Output. Bei generativer KI können Text, Bild, Video, Ton usw. gleichzeitig der Input und der Output sein – je nach Programmierung und Funktion, die das Modell erfüllen soll.
22 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Bilder mit KI generieren Die wohl interessantesten KI-Systeme im Kreativbereich sind die, die Bilder generieren können. Doch Bildgenerator ist nicht gleich Bildgenerator – es existieren mehrere generative Bild-KIs, die auf verschiedene Arten und Weisen programmiert und trainiert worden sind und bei der Bildgenerierung verschiedene Methoden verfolgen. Die meisten generativen KI-Systeme sind auf ein bestimmtes Endergebnis trainiert: So erstellt z. B. Midjourney ausschließlich Pixelgrafiken, Runway bietet Möglichkeiten, Bewegtbilder zu generieren oder zu bearbeiten, Adobe Illustrator kann sogar Vektorbilder generieren, und es gibt Tools, die nur dafür da sind, Pixelbilder in Vektorgrafiken umzuwandeln. Damit möchte ich sagen, dass sogar Bild nicht gleich Bild ist und es eine riesige Auswahl an generativer KI gibt, die uns jeweils in den verschiedensten Aufgaben unterstützen kann, aber jede in ihrem festgelegten Bereich. Adobe Firefly, ein Abkömmling der Adobe Sensei GenAI, vereint z. B. viele verschiedene Modelle in allen möglichen Disziplinen wie Bildbearbeitung, Generierung von Pixel- und Vektorgrafiken usw. Auch ChatGPT kann mehr als »nur« Text generieren – es kann für uns das Internet durchsuchen, Bilder und Code generieren, und Plugins ermöglichen noch viele weitere Einsatzmöglichkeiten. Schauen wir uns zunächst die zwei wichtigen KI-Modelle GAN und Diffusion Model im Pixelbereich an und wie diese funktionieren. Generative Adversarial Networks (GAN) Neuronale Netze, die Bilder generieren oder verändern können, sind sogenannte Generative Adversarial Networks (GAN). Das erste GAN-Modell entstand im Jahr 2014. Innerhalb des Modells stehen sich zwei neuronale Netze gegenüber: Das eine generiert Bilder (Generator), das andere analysiert diese und entscheidet, ob das Ergebnis zufriedenstellend ist (Discriminator). Soll z. B. ein Foto einer Katze künstlich erstellt werden, dann muss das GAN natürlich daraufhin trainiert werden. Dann gibt es einen Input, z. B. einen Text oder ein Bild. Nehmen wir als Beispiel unsere Katze, und wir geben den Input »Erstelle ein Foto einer Katze«. Nun erzeugt das eine Netz (Generator) ein Bild, das andere (Discriminator) gibt Feedback, ob das Bild eine Katze darstellt und ob es von einem realen Foto zu unterscheiden ist oder nicht. Das Ganze geht wie ein Ping-Pong-Ball hin und her. Erst wenn der Discriminator das Katzenbild als realistisches Foto einstuft und zufrieden ist, schafft das Katzenfoto den Realitätstest und wird als Output ausgegeben. Mit der Zeit wird der Prozess immer besser und genauer. Aber diese Art von Modell kann auch scheitern, wenn beide Netze in einer instabilen Endlosschleife feststecken, weil sie es nicht schaffen, ein gewisses Gleichgewicht herzustellen. Das Ganze kann kollabieren, wenn der Generator immer wieder dieselben Bilder ausgibt und der Discriminator irgendwann Probleme bekommt, Künstliches von Echtem zu unterscheiden
Künstliche Intelligenz verstehen | 23
oder dem Generator wenig bis keine Informationen zu den generierten Ergebnissen gibt und damit das ganze Training zum Stillstand kommt.
Bild generiert mit Midjourney, hochskaliert mit RealESRGAN
Die meisten bildgenerierenden Modelle arbeiten daher mit Diffusion Models, aber GANs werden z. B. für das Hochskalieren von Pixelbildern verwendet, wie die RealESRGAN.
Mit GANs kann man sehr gut Bilder upscalen. Dieses KI-generierte Bild (links) wurde mit RealESRGAN um 200 % hochskaliert (rechts). Es gibt noch weitere Möglichkeiten zur Skalierung von Bildern, aber dieses Beispiel soll den Einsatz eines GAN demonstrieren.
Bilder mit Real-ESRGAN hochskalieren Sie möchten das GAN einmal selbst testen? Dann können Sie das z. B. über eine API bei Replicate kostenlos machen: replicate.com/nightmareai/real-esrgan Ein Account bei GitHub ist von Vorteil. Für kleinere Darstellungen, die weniger Details benötigen, eignet sich dieses kostenlose Tool sehr gut. Fangen Sie mit einer niedrigeren Scale Number an (z. B. 2), und vergleichen Sie das Ergebnis mit dem Original. Manchmal wirken die Details sehr »glattgebügelt«, was bei der einen oder anderen Grafik wünschenswert sein kann, bei anderen wiederum zu einem Qualitätsverlust führt. Weitere Möglichkeiten zum Interpolieren von Bildern finden Sie in Kapitel 5.
Diffusion Models Diffusionsmodelle sind eine neuere Methode in der Bildgenerierung. Sie können vielfältige Bilder erzeugen und haben den Vorteil, dass sie nicht unter einem Model-Kollaps leiden und keine Probleme haben, verschiedene Merkmale in einem Bild darzustellen. Ein Diffusionsmodell lernt, indem es schrittweise Rauschen zu einem Bild hinzufügt. Dabei werden Details allmählich so verfremdet, bis nur noch reines Rauschen
24 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Bilder generiert mit Midjourney
übrig bleibt. Das Modell wird anschließend trainiert, aus dem vorher abstrahierten und verrauschten Bild eine leicht entrauschte Version vorherzusagen. Durch wiederholte Anwendung des Modells auf seine eigenen Vorhersagen entsteht nach und nach ein detailreicheres Bild ohne Rauschen.
Gibt man einen Prompt in ein Diffusionsmodell wie Midjourney ein, dann sieht man schon während des Prozesses eine »verrauschte« Vorschau, die einen Einblick in das Endergebnis und den Prozess gibt.
Diffusionsmodelle nutzen also zufälliges Rauschen als Eingabe, das dann schrittweise »geglättet« wird, um ein zusammenhängendes Bild zu erzeugen. Sie können mit Texten und Bildern trainiert werden. Im Vergleich zu GANs erzeugen Diffusionsmodelle hochdetaillierte und komplexe Bilder. Allerdings ist das Training aufgrund des iterativen Prozesses und des Speicherbedarfs zeitaufwändiger. GANs hingegen können schnell Bilder generieren und werden daher eher für Echtzeitanwendungen verwendet. Die Zukunft der Bild-KIs wird eine Mischung aus Diffusionsmodellen sein und weiteren Komponenten wie Funktionen zur Bildinterpolation oder Vektorisierung der Bilder, dem Erzeugen von Bewegtbild und der Möglichkeit, die Ergebnisse weiter zu bearbeiten, wie es einige Modelle wie z. B. Adobe Firefly oder Runway bereits anbieten.
KI und unsere Sprache Die menschliche Sprache ist komplex. Sie besteht nicht nur aus Ziffern, Buchstaben und Wörtern bis hin zu ganzen Sätzen, sondern je nach Kontext gibt es unterschiedliche Bedeutungen von Wörtern und Schriftzeichen. Es existieren etliche Sprachen und Dialekte. Sprache ist die wichtigste Schnittstelle zwischen Anwendern und KI-Programmen. Die heutigen KI-Systeme, die wir im Alltag nutzen, wurden darauf program-
Künstliche Intelligenz verstehen | 25
miert, dass wir per Spracheingabe mit ihnen kommunizieren können – z. B. Siri, Google, Alexa und Co. Und das funktioniert mal sehr gut, mal weniger gut. KI-Systeme lernen immer schneller – aber noch ist das Ende der Fahnenstange lange nicht Sprache ist die erreicht. Die Simulation menschlicher Sprache ist bereits so gut geworwichtigste Schnittden, dass wir kaum noch unterscheiden können, ob wir es mit einem Menstelle zwischen schen oder einer Maschine zu tun haben. Ja manche führen sogar ganze Anwendern und Dialoge und Gespräche mit KI-Bots und ziehen diese menschlicher Kommunikation vor. Das liegt daran, dass die meisten Sprach-KI-Systeme KI-Programmen überaus höflich antworten, wenn man mit ihnen kommuniziert – besonders ChatGPT war zu Beginn unerträglich unterwürfig, was mittlerweile deutlich besser geworden ist. KI ist geduldig und immer erreichbar. Sie gibt keine Widerworte. Der neue beste Freund des Menschen? Prompts als Schnittstelle zu generativer KI Natürlich nutzen wir KI nicht nur per Spracheingabe, wie z. B. in den Programmen der Adobe Creative Cloud mit Hilfe von Werkzeugen und Schaltflächen. Dort steckt KI in den verschiedensten Funktionen, die wir nicht über Sprache steuern müssen. Je komplexer die Aufgabenstellung, desto mehr rückt das Sprachinterface in den Vordergrund, denn mit ihm können wir besonders gut ausdrücken, was wir gerade brauchen. Wie wir unsere Befehle (Prompts) eingeben, ändert sich stetig. Wo vorher gewisse Formen eingehalten werden mussten (nur Stichpunkte, keine ganzen Sätze), können Prompts z. B. bei Midjourney nun viel freier formuliert werden. Wir entscheiden mit unserer Eingabe, wie viel Freiheit die KI in ihrer Antwort hat. Es gibt sogar neue Berufe wie den des Prompt-Engineers. In Zukunft ist jedoch zu erwarten, dass solche Systeme so gut werden, dass sie auch bei weniger erfahrenen Usern sehr gute Ergebnisse liefern, wie es heute schon immer mehr der Fall ist. KI wird mehr an uns Menschen und unsere Kommunikation angepasst als umgekehrt. KI versteht Sprache und ihre Komplexität immer besser – ein Meilenstein in der Entwicklung. Es wird sich bald ganz natürlich anfühlen, mit KI zu kommunizieren und zusammenzuarbeiten. Wie die Zukunft von KI als Designassistenz aussehen könnte, schauen wir uns in Kapitel 7 näher an. Sprachbarrieren beim Prompting überwinden Momentan unterstützen die großen Text-zu-Bild-Modelle nur die englische Sprache. LLMs wie ChatGPT liefern trotz der Unterstützung vieler weiterer Sprachen manchmal bessere Ergebnisse, wenn man auf Englisch mit ihnen kommuniziert. Das wird sich in Zukunft sicher ändern, aber wer jetzt schon mit Midjourney und Co. arbeiten möchte, sollte das eigene englische Vokabular auffrischen oder sich von anderen KI-gestützten Übersetzungs-Apps Hilfe holen, wie z. B. ChatGPT, DeepL und Google Translate – um nur die größten Online-Übersetzungstools zu nennen. ChatGPT und DeepL können sehr gut ganze Texte semantisch korrekt übersetzen, Google Trans late nutze ich gerne, um einzelne Begriffe nachzuschlagen.
26 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Die Kunst, Ideen in Worte zu fassen Trotz aller Fortschritte in Sachen Spracherkennung müssen wir Menschen im Umgang mit KI lernen, unsere Ideen und Wünsche präzise zu formulieren, wenn wir ein bestimmtes Ergebnis erwarten. Diese Kompetenz, aus den Wünschen unserer Kunden – die manchmal selbst gar nicht so genau wissen, was sie wollen – brauchbare Ideen und Konzepte zu entwickeln, ist das, was uns von vielen KI-Systemen unterscheidet. Während die KI mit dem arbeitet, was sie an Informationen bekommt, hinterfragt der Mensch und versucht, die Aufgabe zu verstehen. Wir können zwischen den Zeilen lesen, beraten und uns Gedanken machen, bevor wir an eine Umsetzung denken. Die Kunst ist es, aus Informationen verschiedenster Quellen und eigenen Ideen ein zielgerichtetes Briefing in Form eines Prompts an die KI zu schicken, um dann eventuell das herauszubekommen, was wir uns vorgestellt haben. Und das braucht Ideenreichtum in der Formulierung des Briefings und Geduld, wenn nicht gleich das gewünschte Ergebnis herauskommt. Hier haben es Kreative einfacher, denn wir sind es gewohnt, aus wenig Input neue und innovative Ideen zu kreieren, und genau das kommt uns bei der Zusammenarbeit mit generativer KI zugute.
Bild generiert mit Midjourney
Schrift bei generativer KI Abgesehen von der Darstellung einzelner Schriftzeichen (gut für Typografie-Studien) und häufiger englischer Begriffe (siehe Kapitel 5) haben die meisten KI-Modelle noch Probleme mit der Darstellung von Text auf generierten Bildern. Besonders bei Logo designs und komplexeren Motiven mit Text »verschlucken« sich die Modelle gerne und die Ergebnisse sind nicht brauchbar oder bedürfen noch einer umfangreichen Nachbearbeitung.
Hier der Versuch, mit Midjourney ein Logo für eine Webseite namens »KI & Design« zu generieren. Die Entwürfe sind spannend, aber der Text offensichtlich unbrauchbar. Für Ideen und erste Entwürfe können diese Grafiken trotzdem verwendet werden.
Künstliche Intelligenz verstehen | 27
Es wird nur eine Frage der Zeit sein, bis diese Herausforderung gelöst wird. Bis dahin kann man versuchen, Text aus dem Prompt auszuschließen (siehe dazu Kapitel 4 – Negativprompts) oder den falsch dargestellten Text nachträglich zu ersetzen. In Kapitel 5 beschäftigen wir uns noch intensiver mit den Themen Typografie und KI. Large Language Models (LLM) Eines der bekanntesten Large Language Models (LLM) zum Generieren von Texten wurde von OpenAI entwickelt. ChatGPT (Abkürzung für Chatbot Generative Pre-trained Transformer) ist ein fortschrittliches KI-Modell (so hat sich ChatGPT selbst genannt, als ich es gefragt habe), das entwickelt wurde, um natürliche Sprache zu verstehen und menschenähnliche Antworten zu generieren. Es basiert auf dem Konzept des maschinellen Lernens, speziell des überwachten Lernens. Um ChatGPT zu trainieren, wurden große Mengen an Textdaten verwendet. Das Modell wurde darauf trainiert, Muster und Zusammenhänge in diesen Texten zu erkennen und daraus ein Verständnis für Sprache und menschliches Wissen zu entwickeln. Das Training von ChatGPT erfolgte durch eine Methode namens »transformer-based architecture«, die auf einem tiefen neuronalen Netzwerk basiert. Es wurden viele Schichten von Neuronen verwendet, um komplexe Abhängigkeiten in den Texten zu erfassen und genaue Vorhersagen zu treffen. ChatGPT hat gelernt, aufgrund von Beispielen und Mustern Vorhersagen darüber zu treffen, welche Wörter oder Sätze in einem gegebenen Kontext am wahrscheinlichsten sind. Daniel Kehlmann fasst es in seinem Buch »Mein Algorithmus und Ich« gut zusammen: »Man kann ein Problem durch Einsicht lösen oder durch eine Wahrscheinlichkeitsabschätzung zukünftiger Ereignisse.« Nicht einmal wir Menschen stehen immer auf der Seite der Einsicht, auch wir treffen Entscheidungen basierend auf einer Abschätzung, welches die beste Lösung sein könnte. KI-basierte SprachmoKI-basierte Sprach- delle stehen momentan immer auf der Seite der Wahrscheinlichkeit bzw. modelle stehen deren auf Daten basierender Abschätzung.
momentan immer auf der Seite der Wahrscheinlichkeit.
Während des Trainings wurde ChatGPT mit einer großen Bandbreite von Informationen und Wissen aus verschiedenen Quellen gefüttert. Dieses Supervised Training haben sehr viele Menschen manuell durchgeführt, indem sie die Antworten der KI bewertet und korrigiert haben. Dieses Training ermöglicht es dem Modell, ein breites Spektrum an Fragen zu beantworten, auf verschiedene Themen einzugehen und in den verschiedensten Sprachen zu kommunizieren. Eine generierte Antwort von ChatGPT ist immer einzigartig, was bedeutet, dass Sie niemals exakt dieselbe Antwort wie jemand anderes bekommen oder exakt das gleiche Ergebnis auf dieselbe Frage noch einmal erhalten. Das heißt auch, dass ein generierter Mengentext nie ein Plagiat sein kann. Mit KI Plagiate zu erzeugen, ist schwierig, es sei denn, man verlangt es konkret. Ob die generierten Ergebnisse inhaltlich stimmen, ist allerdings eine andere Frage.
28 | Kapitel 1: Künstliche Intelligenz – eine Einführung
ChatGPT zeigt zwar beeindruckende Fähigkeiten im Verständnis und bei der Erzeugung von Texten, hat aber auch seine Grenzen. Es kann zu fehlerhaften oder unsinnigen Antworten kommen: Trotz der stetigen Weiterentwicklung der Modelle sind Fehlermeldungen und Schwankungen in der Qualität der Antworten möglich, denn die KI ist darauf angewiesen, dass die eingegebenen Informationen korrekt und verständlich sind. Warum sind LLMs so praktisch für den Designalltag? Hier nur ein paar Anwendungsbeispiele für diese KI-Modelle: J J J J J J
Textgenerierung – zum Erstellen von Texten in verschiedenen Sprachen Analyse von Texten – LLMs können Texte klassifizieren und kategorisieren Übersetzungen – auch hier wird bereits sehr viel KI-gestützt gearbeitet Inhaltszusammenfassung – lange Texte und Dokumente zusammenfassen Texte neu schreiben – vorhandene Texte verbessern oder umschreiben Konversation – mittlerweile können Sie mit LLMs fließende Unterhaltungen führen
LLMs haben ein großes Potenzial, die Produktivität und damit auch die Wirtschaftlichkeit zu steigern. Mehr zu den Möglichkeiten lesen Sie in den folgenden Kapiteln.
Einschränkungen und Probleme von KI-Systemen Werfen wir einen ersten kritischen Blick auf die rasante Entwicklung von KI-Systemen und deren Einzug in unseren Arbeitsalltag. Wir sehen ein Spannungsfeld zwischen Faszination und Vorteilen gegenüber Nachteilen und der Angst vor einer Bedrohung durch KI. Wie können wir als Gesellschaft mit dieser neuen Realität umgehen? Eine kritische Reflexion über die Wechselwirkungen zwischen Mensch und Maschine, über die Rolle der KI in unserem Leben und unsere Verantwortung beim Umgang mit ihr ist jetzt besonders wichtig.
Die Angst vor der KI In Gesprächen mit Kreativen wie auch im öffentlichen Diskurs auf sozialen Medien erfahre ich immer wieder von Ängsten im Zusammenhang mit KI. Woher kommt diese Angst? Zunächst ist es menschlich, Angst zu haben und Neuem gegenüber skeptisch zu sein. Angst schützt uns und kann unser Überleben sichern. Aber viele Ängste lassen sich nicht rational begründen – zumindest in unserer modernen Gesellschaft nicht. Angst, auch im Zusammenhang mit KI, kann sich auf unsere Kreativität auswirken – diesem Problem widmen wir uns im nächsten Kapitel über Kreativität. Auf Dauer bringt uns dies allerdings im Hinblick auf den Einsatz neuer Technologien nicht weiter.
Einschränkungen und Probleme von KI-Systemen | 29
Schauen wir uns einmal an, welche Ängste im Zusammenhang mit KI laut einer YouGov-Befragung in Deutschland am höchsten sind: J J J J J J
Bedrohung der Demokratie durch gefälschte/verzerrte Inhalte (29 %) Ersetzen von menschlicher Arbeitskraft (28 %) Auswirkungen auf Privatsphäre und Datenschutz (14 %) Ungeklärte Haftung bei Schäden/Unfällen (9 %) Keine (7 %) Etwas anderes (4 %)
Die schlechte Nachricht ist: Einige Ängste sind durchaus begründet. Die gute Nachricht: Wir selbst haben mehr Möglichkeiten, als wir denken, und auf jeden Fall haben wir die größte Kontrolle über den Umgang mit unseren Ängsten und mit KI. Und wir haben sehr viel Kontrolle über unsere eigene Zukunft, die wir aktiv mitgestalten können. Kreative, die sich von ihren Ängsten abschrecken lassen, verpassen vielleicht die Chance, sich mit Hilfe von Technologien wie KI weiterzuentwickeln. Der erste Schritt ist es, sich mit generativer KI entsprechend auseinanderzusetzen, und mit dem Lesen dieses Buchs ist dieser Schritt schon getan. Daher sollen hier noch einige Überlegungen im Umgang mit KI angestellt werden, die wichtige Themen ansprechen und die Sie, nach Bedarf, mit weiterer Literatur vertiefen können. KI – das Datenmonster Die Masse an Daten – auch Big Data genannt –, die es braucht, um die heutigen KISysteme zu »füttern«, ist unvorstellbar groß. Wir haben es schon gesehen: Usern fällt es besonders schwer, nachzuvollziehen, wie KI zu ihren Ergebnissen gelangt ist. Wir erfahren nichts über die Quellen und Urheber, deren Werke als Trainingsmaterial gedient haben und eventuell zitiert oder kopiert wurden. Und wenn es diese Verweise gibt, indem man z. B. ChatGPT bittet, die Quellen zu Wir erfahren nichts nennen, heißt das nicht, dass diese auch verlässlich sind. über Quellen und
Urheber, deren Werke als Trainingsmaterial gedient haben.
In den Medien wird immer wieder von Fällen berichtet, in denen urheberrechtlich geschützte Werke zum Training von KI-Systemen genutzt wurden, ohne die jeweiligen Künstler und Künstlerinnen zu vergüten oder um Erlaubnis zu bitten. Bei den großen Datenmengen, mit denen KIs trainiert werden müssen, hat niemand Einfluss darauf, wie ähnlich die Ergebnisse den ursprünglichen Werken sind. Im Laufe der Zeit werden sich Regelungen finden, aber bis dahin ist dies eine rechtliche Grauzone, und das sollten Sie im Hinterkopf behalten, wenn Sie mit generativen KIs kommerziell arbeiten möchten. In Kapitel 6 wird noch ausführlicher über die rechtliche und ethische Problematik gesprochen.
30 | Kapitel 1: Künstliche Intelligenz – eine Einführung
KI in the Black Box Selbst KI-Experten und Entwicklerinnen stehen einem großen Problem gegenüber: Bei selbstlernenden neuronalen Netzen sind nicht alle Schritte des Lernprozesses für uns Menschen nachvollziehbar. Dies nennt man im Fachjargon eine Black Box. Wie Sie zu Beginn des Kapitels gesehen haben, sind die Prozesse innerhalb eines neuronalen Netzes sehr vielschichtig und komplex – ähnlich wie die Prozesse des menschlichen Gehirns. Trotz Algorithmen und Parametern in der Programmierung sind nicht alle Einzelschritte in ihrer Komplexität zu erfassen. Das ist es, was die KI so übermächtig scheinen lässt: Aus wenigen Worten kreiert sie ganze Bildwelten oder Romane, und das in wenigen Sekunden. Eine weitere Black Box sind die Quellen der Trainingsdaten – die teils bekannt, teils unbekannt sind. Nicht jeder lässt sich gerne in die Karten schauen, während es zum Wetteifern der KI-Entwickler geht, wessen KI-Modell den Markt beherrscht. Daten sind Macht – und Geld. Inside the Black Box Die Washington Post gibt in ihrem Online-Artikel »Inside the secret list of websites that make AI like ChatGPT sound smart« einen Einblick in Internetquellen, die als Trainingsdaten für ChatGPT und Co. genutzt wurden: washingtonpost.com/ technology/interactive/2023/ai-chatbot-learning
KI als neues Massenmedium Werden wir jetzt von KI-generierten Bildern und Texten überflutet? Die Antwort lautet: ja. Und das bringt einige Probleme mit sich. Da es nun noch einfacher ist, massenhaft Bilder, Texte, Videos und mehr zu kreieren, und die KI-Tools der breiten Masse sehr günstig oder teilweise kostenlos zur Verfügung stehen, ist das Internet bereits jetzt mit KI-generiertem Content überladen. Wie können wir noch unterscheiden, ob ein Bild von einem Menschen oder einer Maschine erstellt wurde? Wie können wir sicher sein, dass ein Text auf echten Erfahrungen und Überzeugungen basiert und nicht einfach das Ergebnis eines cleveren Algorithmus ist? Diese Fragen bringen neue Herausforderungen für uns als Gesellschaft und fordern uns auf, über die Rolle der KI in unserem Leben nachzudenken. Zudem gibt es Gerüchte, dass Unternehmen wie Google zukünftig reine KI-generierte Inhalte ausschließen bzw. schlechter ranken als »originale« Inhalte. Google betont, dass der Mensch im Fokus steht und daher hochwertige Inhalte bevorzugt werden, die dafür am besten geeignet sind – egal wie diese erstellt wurden. Da Google selbst schon
Einschränkungen und Probleme von KI-Systemen | 31
sehr lange KI erforscht und einsetzt, ist das die einzige logische Schlussfolgerung aus dieser Debatte. Auch Publisher wie Amazon und Co. werden Tools einsetzen, um die Spreu vom Weizen zu trennen, z. B. um Bücher auszusortieren, die komplett automatisiert mit KI erstellt wurden und damit sehr wahrscheinlich nicht einem gewissen Qualitätsanspruch entsprechen. Ist das vom Menschen oder kann das weg? Es gibt Wege herauszufinden, ob Inhalte von KI-Systemen generiert wurden. Für Texte gibt es z. B. die Seite originality.ai, für Bilder gibt es unter anderem die Seite aiornot.com, die bei meinen Tests bisher immer richtiglag. Neue Untersuchungen ergaben allerdings, dass es keine absolute Sicherheit gibt, KI-Inhalte mit Hilfe dieser und anderer Tools zu erkennen.
Mit diesen Tools können Sie auch den eigenen generierten Content prüfen und so anpassen, dass er die Tests besteht – und damit bessere Inhalte veröffentlichen. Ein weiterer Grund, KI als Ergänzung der eigenen Arbeit zu sehen und weniger als Ersatz für die eigenen Skills und die eigene Kreativität. Menschliche Daten vs. maschinelle Daten Bisher haben KI-Modelle mit Hilfe von Trainingsdaten von Menschen gelernt – ob aus Büchern, Kunst, Publikationen aller Art und natürlich aus dem Internet. Nutzen wir jetzt immer mehr KI, um neue Inhalte zu erstellen, dann entstehen immer mehr maschinengemachte Daten. Werden diese wiederum genutzt, um spätere Generationen von KI-Modellen zu trainieren, kann es zu einer Art Kollaps führen: Die Modelle werden zunehmend vergesslicher und fehlerhafter. Das haben Wissenschaftler*innen verschiedener Universitäten in den USA erforscht und in einem Paper auf arxiv.org veröffentlicht. Es ist so, als ob eine Kamera ein Bild von einem Bild macht, dann ein Bild von diesem Bild und so weiter. Mit jeder neuen Schicht verliert das Originalbild an Klarheit und Genauigkeit. Zudem warnen sie auch vor absichtlicher Verunreinigung von Trainingsdaten, verursacht z. B. durch eine Flut von FalschinforVon uns Menschen mationen im Internet (siehe Abschnitt »Manipulation und Deepfakes« in erstellte Texte, Kapitel 6).
Kunstwerke, Bilder usw. könnten noch wertvoller werden.
Das bedeutet zum einen, dass die steile Lernkurve der KI-Modelle schnell abnehmen könnte, zum anderen aber auch, dass von Menschen erstellte Texte, Kunstwerke, Bilder usw. noch wertvoller werden, da sie zwingend für die Weiterentwicklung von KI benötigt werden. Die eigene Kreativität und das fachliche Geschick werden weiterhin eine wichtige Rolle spielen! Behalten Sie bei der Nutzung von KI außerdem im Hinterkopf, dass die immensen Mengen an Daten, die als Trainingsmaterial dienen, teils fehlerhaft oder sogar böswil-
32 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Bild generiert mit Adobe Firefly
lig sein könnten. Wie auch sonst gilt, sich niemals blind auf alles zu verlassen und alle Ergebnisse der KI-Modelle zu hinterfragen und zu prüfen, ob die Inhalte bedenkenlos nutzbar sind.
Was für uns Menschen gilt, gilt auch für KI: Wenn wir uns gutes Essen zuführen, wird unser Körper gleich leistungsfähiger als mit Fast Food und Co. Die Nahrung der KI sind Daten, und je besser die Grundlage der Daten, desto besser später die Ergebnisse.
Shit in, shit out – Probleme beim Prompting Überall sehen wir beeindruckende Beispiele dafür, was generative KI-Systeme alles können. Was uns fehlt, ist der Weg zu diesen Ergebnissen, denn es muss geübt werden, überzeugende Ergebnisse aus der KI hervorzulocken. Wir kennen bei den guten Beispielen leider oft weder die Bedingungen noch wissen wir, ob das Ergebnis genau so gewollt war und wie lange es gedauert hat, es zu erhalten. Bei manchen der Bilder in diesem Buch hat der Prozess wenige Minuten gedauert, bei anderen mehrere Stunden, bis ich mit dem Ergebnis zufrieden war. Wundern Sie sich also nicht, wenn Sie zunächst weniger brauchbare Ergebnisse erhalten, wenn Sie mit generativer KI arbeiten. So war es schon immer in der Welt der Technologie: Bei Demonstrationen scheint alles perfekt zu klappen. Man möchte sofort loslegen und es ausprobieren. Doch unter weniger idealen Bedingungen scheinen die eben noch so perfekten Systeme zu versagen. Man macht es dann wieder auf dem herkömmlichen Weg oder bessert das Ergebnis selbst aus. Und hier ist das Problem (und das nicht nur bei KI): Aus Bequemlichkeit verlassen wir uns gerne auf unsere Programme und Geräte. Ja manch eine Funktion verlockt gerade dazu, gar nicht zu lernen, wie es »richtig« geht. Wir kennen alle die »schönen« Ergebnisse mit Zauberstab und Co. da draußen, obwohl ein Freisteller mit-
Einschränkungen und Probleme von KI-Systemen | 33
tels Pfadwerkzeug schneller und sauberer gewesen wäre, aber aufgrund fehlender Kenntnisse nicht verwendet wurde. Mit KI gehen viele Funktionen wie das automatische Freistellen schon schneller, aber die Ergebnisse sind je nach Ausgangsmaterial mal mehr oder weniger brauchbar. Dementsprechend fehlt mit mangelnden technischen Kenntnissen auch das Einschätzungsvermögen, wie das Ergebnis (noch) besser aussehen könnte, und die Fähigkeit, es tatsächlich zu verbessern. Das betrifft Laien wie auch alle, die in kreative Berufe einsteigen möchten. Daher braucht es uns Kreativschaffende mit dem Wissen über Ästhetik und Komposition in Verbindung mit kreativen Ideen und handwerklichem Geschick, um Ergebnisse von Technologien wie generativer KI zu kuratieren und diese gegebeMit mangelnden technenfalls anzupassen, damit sie auch ihren Sinn erfüllen können.
nischen Kenntnissen fehlt auch das Einschätzungsvermögen, wie das Ergebnis (noch) besser aussehen könnte.
Dieses Wissen hilft dabei, der KI die richtigen Prompts zu geben, um das gewünschte Ergebnis zu erhalten. Ein paar Wörter eintippen kann jede*r – die einzelnen Parameter bestimmen nur, wer das Wissen darüber hat. Später im Buch lernen Sie noch die Vielfalt der Möglichkeiten kennen, um die Ergebnisse von KI-Tools mit Prompts und Einstellungen zu beeinflussen (siehe Kapitel 4). Hier können Sie all Ihr Wissen über Design, Fotografie, Video, Text, 3D, Illustration usw. einfließen lassen, um mit generativer KI zu arbeiten. Aber: Das reine Verfügen über ein Werkzeug macht noch keinen Meister aus Ihnen. Sie erinnern sich an das Bild mit dem Höhlenmenschen und dem MacBook weiter vorne im Buch. Dank Midjourney werden nicht alle plötzlich zu Fotografen oder Designerinnen. Wie bei jedem Werkzeug gilt es zu verstehen und zu lernen, und erst in der längeren Anwendung können Sie dann immer bessere Ergebnisse erzielen. Schöpfen Sie aus Ihrer Erfahrung und Ihrem Know-how in Ihrem Fachgebiet, und Sie werden sich von anderen abheben, die diese Technologie ohne Wissen und Verstand nutzen! Prompting ist ein Balanceakt zwischen Detailreichtum und Einfachheit Das Fachwissen über Design und Co. reicht alleine leider nicht aus, um damit auch geeignete Prompts für KI-Systeme zu erzeugen und Inhalte für gezielte Anwendungen zu generieren. Nun haben Sie in diesem Buch bereits erfahren, wie KI lernt und wie der Output generiert wird. So beeindruckend die Ergebnisse auch sind, sie sind eine einfache Berechnung und Vorhersage, welcher Output wohl der Fragestellung am nächsten kommt, das alles durch das Supervised Training sehr durch Menschenhand gesteuert. Beim Generieren von Inhalten mit KI stoßen wir auf folgende Probleme: J J
Je komplexer die Aufgabe, desto »verrückter« auch das Ergebnis. Oft werden auch Details und Vorgaben im Prompt ignoriert. Und je einfacher das ist, was wir generieren wollen, desto mehr Details werden durch die KI ungefragt hinzugefügt (siehe Beispiel eines einfachen Verlaufs in Kapitel 5).
34 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Wir Menschen können im Gegensatz zu KI mit komplexen Aufgabenstellungen sehr gut umgehen. Diese Kompetenz wird beim Prompting auf die Probe gestellt. Deshalb greife ich gerne den Merksatz auf, den jede*r Gestalter*in schon einmal zu hören bekommen hat: das KISS-Prinzip. Zur Erinnerung: Keep it simple and stupid! Das Prinzip besagt, dass ein Problem am besten mit einer möglichst einfachen Lösung angegangen werden sollte. KISS und KI Was bedeutet das in der Praxis? Hier kann ich nur dazu raten, mutig zu sein und komplexe Aufgaben in kleinere »Häppchen« zu teilen. Ob Texte oder Bilder – je einfacher der Prompt, desto besser das Ergebnis und desto weniger Gefahr besteht, dass Teile des Prompts ignoriert werden. Zu wenig Details lassen das Ergebnis wiederum vom eigentlichen Ziel abweichen, was aber zu neuen Ideen und Erkenntnissen führen kann.
Bei komplexen Bildern und Motiven bedeutet das, dass höchstwahrscheinlich ein Composing aus den Einzelteilen erstellt werden muss – so wie wir es bereits gewohnt sind, wenn wir mit Stockmaterialien und Co. umgehen. Der Unterschied ist nur, dass wir unsere eigenen Materialien – an unsere Bedürfnisse angepasst – erzeugen können und nicht mehr von Inhalten abhängig sind, die andere er-
Perfektion ist nicht dann erreicht, wenn man nichts mehr hinzufügen, sondern wenn man nichts mehr weglassen kann.
stellt haben. Vereinfachung und Abstraktion sind eine Kunst, die gelernt sein will. Das sagte auch der französische Schriftsteller Antoine de Saint-Exupéry, der unter anderem das Buch »Der kleine Prinz« geschrieben hat: »Perfektion ist nicht dann erreicht, wenn man nichts mehr hinzufügen, sondern wenn man nichts mehr weglassen kann.« Wer also eine Idee dermaßen einfach herunterbrechen kann, um mit seinem Prompt möglichst nah an das Ergebnis zu gelangen, das man erreichen möchte, der hat damit auch erreicht, diese Idee vielen anderen zugänglich zu machen. Und genau das ist ja die Aufgabe von Designern und Designerinnen. Eine erklärungsbedürftige Idee ist keine gute Idee.
Es gilt, eine Mischung aus Einfachheit und gezielten Angaben für die KI zu finden. In Kapitel 4 werden wir uns Beispiele für solche Prompts näher anschauen, und ich teile meine Erfahrungen und Tipps mit Ihnen. Da KI aber ein sehr vielfältiges Werkzeug ist und es verschiedenste Versionen und Programme gibt, die immer etwas anders reagieren, sind dies auch nur Ideen und Hinweise, weniger eine Anleitung für die besten Prompts. Der richtige Prompt für die eine Sache kann der falsche für die andere sein – daher halte ich wenig von reinen Promptsammlungen mit hunderten von Prompts ohne Kontext und Beispiele in der Anwendung. Es gilt, sich den eigenen Weg zu bahnen und damit auch wieder mehr Individualität in KI-generierte Inhalte zu bringen.
Einschränkungen und Probleme von KI-Systemen | 35
KI als Werkzeug für Generalisten?
Bild generiert mit Midjourney
Mit KI können nun Fotos ohne Kamera gemacht und Illustrationen erstellt werden, ohne einen Stift anzurühren, Texte schnell und einfach generiert werden usw. Bisher hat man, wenn man in einem Bereich nicht ausreichend bewandert war, auf das eigene Netzwerk und externe Dienstleistungen oder Stockagenturen zurückgegriffen. In Unternehmen wurden Menschen mit verschiedenen Fähigkeiten eingestellt oder ebenfalls mit externen Dienstleistungen gearbeitet, um diese Aufgaben zu erfüllen. Nun gibt es unter uns Kreativen natürlich viele Generalisten – wir interessieren uns meist für mehr als nur eine kreative Tätigkeit und lernen dazu, um darin besser zu werden. Das macht uns konkurrenzfähig. Aber was macht KI aus unserem Beruf in der Zukunft? Werden wir alle zu Generalisten? Bieten jetzt einzelne Personen alles an, was der Kreativmarkt zu bieten hat? Die Verlockung ist groß, nun als One-Person-Show alle Wünsche der Kunden zu erfüllen. Und auch Unternehmen könnten sich überlegen, ob sie noch so viele Mitarbeitende oder Externe brauchen (Personalkosten sind mitunter die höchsten Kosten eines Unternehmens), um gewisse Aufgabenbereiche abzudecken. Oder braucht es vielleicht nur eine Person, die richtig gut mit KI arbeiten kann?
Kreative als Generalisten, die nun ohne Probleme alle Kreativdienstleistungen anbieten können, die ihre Kunden und Kundinnen brauchen.
36 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Wer sich bis jetzt mit den Limitationen von KI wenig auseinandergesetzt hat und nicht weiß, welche Fähigkeiten es als Mensch braucht, um mit KI brauchbare Ergebnisse zu erlangen, könnte in die Falle tappen und glauben, es braucht nicht mehr als ein paar gute Prompts und eine Person, die das Ganze steuern kann. Und manche Kreative könnten sich übernehmen und unter Druck gesetzt fühlen, mit KI nun alles Mögliche abzudecken, um damit keine Kunden zu verlieren. In Kapitel 7 schauen wir gemeinsam in die Kristallkugel, und ich gebe Ihnen ein paar Überlegungen mit, wie sich die Berufswelt ändern könnte, und einige Hinweise, welche Entwicklungen in Zukunft auf uns zukommen könnten. Menschen machen Fehler – KI auch! Nehmen wir an, Sie lassen jemand anderen einen Teil Ihrer Arbeit machen. Egal, wie qualifiziert diese Person ist, Sie werden das Ergebnis sehr wahrscheinlich mit Ihrem Fachwissen und nach Ihren Qualitätsstandards prüfen und bewerten. Vertrauen ist gut, Kontrolle ist besser. Das liegt besonders daran, dass Menschen Fehler machen und dass Fehler menschlich sind – da ist niemand von ausgenommen.
Bilder generiert mit Midjourney
Aber was ist mit Computern und insbesondere KI-Systemen? Wo Menschen alleine fehlbar sind, kann ein Mensch mit einem Computer und mit Hilfe von KI scheinbar wahre »Wunder« vollbringen. KI kann ganz anders mit Daten umgehen und mehr Daten in weniger Zeit verarbeiten und dabei ganz andere Schlüsse ziehen als ein Mensch alleine. Doch nicht immer ist alles Gold, was glänzt.
Hände sind nach wie vor noch immer ein Problem für KI. Das liegt daran, dass Hände sehr komplex sind. Wir können mit unseren Händen so viel machen, und Hände können viele verschiedene Positionen und Kombinationen mit Gegenständen haben, sodass solche Abbildungen immer wieder schiefgehen.
Einschränkungen und Probleme von KI-Systemen | 37
Dass Künstliche Intelligenz nicht fehlerfrei ist, wird die meisten wahrscheinlich nicht überraschen. Es kursieren zahlreiche Bilder oder Texte im Internet, die zeigen, wo die KI »danebengegriffen« hat. Auch ich selbst habe von KIs wie Midjourney und Co. schon sehr gruselige Abbildungen beispielsweise von Menschen erhalten. Oft wird auch der Begriff »Halluzination« gebraucht, wenn es um »kreative« Antworten der KI geht, die nicht unbedingt der Realität entsprechen. Diese Fehler sind beruhigend, zeigen sie uns doch, dass KI doch nicht unfehlbar ist und es noch eine prüfende Instanz geben sollte, die solche Fehler erkennt, bevor etwas KI-Generiertes verOft wird der Begriff öffentlicht wird. Das macht KI wieder mehr zu etwas Menschlichem als »Halluzination« »Übermenschlichem«.
gebraucht, wenn es um »kreative« Antworten der KI geht.
Bilder generiert mit Stable Diffusion über DreamStudio
Die meisten Fehler entstehen auf Basis unzureichender oder fehlerhafter Daten oder eben dadurch, dass das Training der KI noch nicht ausgereicht hat. Doch was bedeutet das für uns, wenn wir mit KI arbeiten möchten? Zum einen, dass wir wissen sollten, dass KI-Systeme nahezu nie eine 100 %ige Fehlerfreiheit erreichen werden. Das ist vielleicht im Designbereich nicht so kritisch, wo etwas als »kreative Freiheit« ausgelegt werden könnte. Im medizinischen Kontext oder wo es um wichtige Daten und Zahlen geht, ist das ein großes Problem. Es ist Vorsicht geboten, und es sollte immer kontrolliert werden, ob der Output dem gewünschten Ergebnis entspricht oder eventuell nachkorrigiert werden muss, um Imageschäden zu vermeiden.
Die korrekte Darstellung von Besteck und Geschirr ist ebenfalls ein Problem. Links eine missglückte Gabel, die auf keiner der alternativen Bilder annähernd realistisch dargestellt wurde. Rechts eine Kaffeetasse mit zwei Henkeln, was leider sehr häufig passiert und mir bei diesem Bild zunächst noch nicht einmal aufgefallen ist.
Und hier kommen wir wieder zu der Erkenntnis, die wir bereits erlangt haben: Das Werkzeug ist nur so gut, wie die Nutzerin bzw. der Nutzer es auch zu bedienen weiß.
38 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Daher sollten Zeit und Ressourcen eingeplant werden, um das, was mit KI-Tools erstellt wird, zu validieren oder zu korrigieren. Auf KI ist kein Verlass – die Ergebnisse schwanken in ihrer Qualität immens. Und: Was heute noch sehr gut geklappt hat, kann morgen ganz anders herauskommen. Probleme beheben In Kapitel 4 und 5 finden Sie Ideen und Workarounds, wie Sie solche Fehler minimieren können. Eine Garantie für Erfolg gibt es leider nicht.
Formen und Schnittstellen von KI Ein Grund, warum KI gerne als humanoider Roboter oder als Cyborg dargestellt wird, ist die Tatsache, dass KI an sich keine eigene Erscheinung hat (außer vielleicht der Code, mit dem sie geschrieben wurde). Das ist für viele Menschen aber zu abstrakt, und die Darstellung von Code assoziieren wir bereits mit Hacking und Co. Schauen wir uns einmal an, wo sich KI in unserem Designalltag überall findet und in welcher Form wir sie schon nutzen. Programme
KI-gestützte Design- und Bildbearbeitungssoftware, Betriebs systeme mit integrierter KI, KI-gestützte Videobearbeitungssoftware, z. B. die Programme der Adobe Creative Cloud, Figma, OfficeProgramme usw.
Apps
KI-gestützte Design-Apps, KI-Assistenten, KI-basierte Fotobearbeitungs-Apps, KI-gestützte Musik- und Video-Apps, z. B. Notizapps wie Notion, Remini, Photoleap, TikTok-Filter usw.
Plugins
KI-gestützte Plugins für Browser und Office-Programme, KI- gestützte Plugins für Grafikdesign-Software, z. B. Stability for Blender, Magician für Figma, ChatGPT-Plugins für Browser usw.
Browserbasiert
KI-gestützte Webdienste für Design und Bildbearbeitung, KIgestützte Webdienste für Texterstellung und -korrektur, z. B. Miro, ChatGPT, Runway, DreamStudio usw.
Technologie
KI in Alltagstechnologien wie Computern, Smartwatches, Smart phones, Tablets, Autos, Haushaltsrobotern, KI in Unterhaltungstechnologien wie Spielekonsolen und Smart TVs
Diese Anwendungen begleiten uns bereits in unserem (Design-)Alltag. Die Auflistung hat keinen Anspruch auf Vollständigkeit.
Formen und Schnittstellen von KI | 39
Wie Sie sehen, ist KI bereits in sehr vielen Bereichen implementiert und arbeitet oft im Hintergrund, ohne dass wir es merken. Das, was einem Roboter am nächsten kommt, wäre in meinem Haushalt vielleicht der Saugroboter. Alles andere sind alltägliche Arbeitsgeräte und Gegenstände, die weder Gesicht noch Persönlichkeit haben. Und viele der Anwendungen und Geräte wirken nicht gerade intelligent – oder haben Sie mit Siri bereits tiefgründige Unterhaltungen geführt oder sie komplexe Aufgaben lösen sehen? Und was wichtig ist: KI ist nicht das Programm oder die Technologie an sich, sondern sie ist nur ein Teil dieser Anwendungen und Geräte.
Mensch-Maschine-Interaktion So vielseitig die verschiedenen KI-Anwendungen sind, so sind es auch die Möglichkeiten, diese Anwendungen zu bedienen. Um KI zu nutzen, braucht es mehr als den Code und ein User Interface zur Bedienung. Die Art und Weise wird oft dadurch bestimmt, wer mit dem System interagiert und zu welchem Zweck es dient. Einige dieser Möglichkeiten überwinden Barrieren für Menschen mit gewissen Einschränkungen – können aber auch neue Barrieren schaffen. Menschen mit Sehbehinderungen profitieren sehr von der Sprach- und Bilderkennung und der Sprachsteuerung. Menschen mit Lähmungen können mit ihren Augen ganze Computersysteme steuern und dadurch kommunizieren. Menschen mit SprachbehindeInteraktionsmögrungen könnten mit Hilfe von Gesten oder über grafische Oberflächen arlichkeiten können beiten. KI lernt bei der Nutzung dieser Systeme mit und kann sich den Barrieren überwineinzelnen Nutzern anpassen. Barrieren werden aber durch KI auch geden – oder neue schaffen, indem viele KI-Systeme noch ausschließlich auf der englischen Barrieren schaffen Sprache basieren und nicht alle Menschen dieser Sprache mächtig sind. Aber auch durch die selektive Auswahl von KI-Algorithmen, welche Inhalte uns bei der Google-Suche oder beim Scrollen durch Instagram angezeigt werden, können Einschränkungen in der Erweiterung unseres Horizonts entstehen, wenn wir uns fast ausschließlich im digitalen Raum bewegen. Es bleibt spannend, wie sich die Mensch-Maschine-Beziehung in Zukunft verändern wird. Schauen wir uns zunächst einmal die aktuellen Möglichkeiten im Designbereich an und wie Sie mit KI interagieren können. Sprache und Text Indem wir Text eingeben oder selbst hineinsprechen, können wir der KI Befehle erteilen bzw. sie bitten, etwas zu tun. »Hey Siri, stelle einen Timer auf fünf Minuten« ist mein alltäglicher Satz, den ich in meine Smartwatch hineinspreche, wenn ich meinen Kaffee zubereite. Mittlerweile gibt es Chatbots, automatisierte Callcenter usw. Aber auch Text-zu-Bild-Generatoren und natürlich auch LLMs wie ChatGPT basieren auf der Spracheingabe, oft kombiniert mit anderen Bedienungsmöglichkeiten (siehe Kapitel 4 über das Prompting).
40 | Kapitel 1: Künstliche Intelligenz – eine Einführung
/imagine a group of creative designers interact with technology like tablets, gloves on a hologram surface designing products together, colors orange and purple --ar 4:5 --v 6.0
Das Ganze kann wie ein Chat aufgebaut sein, aber auch als Textfeld im Browser oder in einem Programm selbst. Spracheingabe-Interfaces wie die KI-Assistenten Alexa, Siri und Co. benötigen nicht immer einen Bildschirm oder eine Benutzeroberfläche. Die Spracheingabe wird in Zukunft eine der wichtigsten Kommunikationswege zwischen Menschen und KI sein, und daher arbeiten die Entwickler mit Hochdruck an der Unterstützung verschiedenster Sprachen und Dialekte sowie dem semantischen Verständnis von Sprache. Später könnte diese Interaktion mit Kameras und dem Erkennen von Mikroexpressionen (kaum sichtbaren Emotionen und Ausdrücken) im Gesicht unterstützt werden, damit KI uns besser versteht und eine bessere Begleiterin unseres Alltag werden kann, wenn wir wollen. Code und Befehle Je nach Modell können Codes verwendet werden, um KI-Systeme an die eigenen Bedürfnisse anzupassen, z. B. wenn Sie mit Open Source oder mit APIs arbeiten (siehe dazu Kapitel 3). Bei den meisten generativen Systemen dienen bestimmte Befehle (bzw. Prompts) als Eingabe, um einen bestimmten Output zu erhalten. Neben dem Text können das je nach KI-System gelernte Abkürzungen (z. B. Parameter) oder eine bestimmte Zeichenfolge sein, um gewisse Einstellungen zum Generieren von Inhalten vorzunehmen. Stellen Sie sich vor, Sie haben eine Fernbedienung für Ihren Fernseher. Mit dieser Fernbedienung können Sie verschiedene Funktionen steuern, wie z.B. den Kanal wechseln oder die Lautstärke anpassen. In der Welt der Künstlichen Intelligenz (KI) ist es ähnlich: Sie haben »Befehle« oder »Prompts«, die wie Tasten auf der Fernbedienung funktionieren. Wenn Sie mit einem KI-System arbeiten, geben Sie diese Befehle ein, um der KI zu sagen, was sie tun soll, ähnlich wie Sie mit der Fernbedienung dem Fernseher sagen, welchen Kanal er anzeigen soll. Manche KI-Systeme erlauben es Ihnen auch, eigene Codes oder Parameter festzulegen, um spezielle Funktionen auszuführen oder spezifische Ergebnisse zu erzeugen, genau wie Sie bestimmte Einstellungen an Ihrem Fernseher vornehmen können, um das Bild oder den Ton anzupassen. Bilder Unsere Welt ist voller Bilder, wir fotografieren tagtäglich unseren Alltag und nutzen gerne soziale Medien mit statischen und Bewegtbildern (Videos), um Teil des Alltags anderer zu sein oder unseren eigenen zu teilen. Es gibt nicht nur KI-Systeme, die Bilder generieren, sondern Algorithmen, die Bilder für die verschiedensten Anwendungszwecke analysieren und verarbeiten können. In Programmen wie Photoshop oder Lightroom dienen sie unter anderem zum automatischen Maskieren und Freistellen von Bildern. In der Google-Bildersuche können wir Bilder als Suchbefehl eingeben und ähnliche Bilder suchen, und auch bei Diffusion Models können Bilder als Prompt oder Teil eines Prompts verwendet werden. Mit Bildern können KI-Modelle trainiert werden,
42 | Kapitel 1: Künstliche Intelligenz – eine Einführung
um einen bestimmten Bildstil oder Look zu erhalten usw. Auch im Bereich Bewegtbild gibt es einige KI-Innovationen wie das Animieren von statischen Bildern, den automatischen Schnitt von Bewegtbildmaterial, das automatische Maskieren von Frames usw. Bilder sind nicht nur in der Kreativbranche ein wichtiges Medium, sondern in der gesamten analogen und digitalen Welt. Gesten Schon lange kein Science-Fiction-Szenario mehr ist das Bedienen von Oberflächen mittels Gesten. Besonders in VR-Umgebungen machen Gestensteuerungen viel Sinn. Apple hat z. B. eine neue VR-Brille angekündigt, die Computer, Kino, Messenger usw. miteinander vereint – gesteuert intuitiv mittels Gesten der Hand oder mit dem Fixieren eines Punkts mit den Augen. Auch das Arbeiten mit VR ist bereits möglich, wenn auch nicht stark verbreitet. Spätestens wenn mehr Haushalte VR-Brillen besitzen, wird es auch mehr Anwendungsbereiche dafür geben. So könnten Sie z. B. im beengten Flugzeug sitzen und trotzdem an mehreren virtuellen Bildschirmen mit einer virtuellen Tastatur und Gesten arbeiten oder sich unterhalten lassen. Ein weiteres Szenario ist das Erkennen von Gesten über Kameras, mit denen sich KI-gestützt bestimmte Aufgaben ausführen lassen. Noch kenne ich keine konkreten Anwendungen dieser Art, aber dies ist ebenfalls nur eine Frage der Zeit.
Bild generiert mit Midjourney
Schaltflächen und Werkzeuge Viele KI-Funktionen verbergen sich hinter Schaltflächen in Programmen und Betriebssystemen oder sind in Form von Werkzeugen wie in Photoshop und Co. nutzbar. Viele KI-Programme vereinen Text- und Bildeingabe sowie die Möglichkeit, über Schaltflächen, Regler und Malwerkzeuge KI zu nutzen. Diese Palette an Werkzeugen wird immer intuitiver und benutzerfreundlicher, wie die neuesten Entwicklungen z. B. von Adobe Firefly zeigen (siehe Kapitel 5).
Je intuitiver die Bedienung eines User Interfaces ist, desto einfacher haben es User, mit den Anwendungen zu arbeiten. KI kann solche Interfaces durch reine Spracheingabe oder Gestensteuerung in Zukunft noch schlanker machen.
Formen und Schnittstellen von KI | 43
Schnittstellen – wie nutzen wir KI? Um Informationen mit KI auszutauschen und damit zu arbeiten, brauchen wir eine Schnittstelle zwischen Menschen und KI-Anwendung. Je nach Funktionsumfang und Zielgruppe kann diese Schnittstelle anders aussehen und unterschiedliche Funktionen bieten. J
J J J
KI-Assistenten können aktuell nur sehr einfache Aufgaben erfüllen, wie das Stellen vom Timern oder das Ausführen vorprogrammierter Ereignisse (z. B. Licht an, Jalousie herunter, Heizung auf 21 °C). Generative KI ist da schon etwas komplexer, und je nach Anwendungsbereich werden mehr oder weniger Bedienelemente benötigt. KI-Filter innerhalb von Apps sollen schnell und einfach anzuwenden sein. Bildgeneratoren für den professionellen Bereich benötigen mehr Einstellmöglichkeiten, um den Usern mehr Einfluss auf das Ergebnis zu bieten.
Welche konkreten Schnittstellen ergeben sich also aus der Nutzung von KI-gestützten Anwendungen im Designbereich? Grafische Benutzeroberflächen (GUIs) Viele KI-gestützte Betriebssysteme, aber auch Design- und Bildbearbeitungsprogramme verwenden grafische Benutzeroberflächen. Diese ermöglichen es uns, mit dem System zu interagieren, indem sie visuelle Elemente wie Menüs, Werkzeuge, Schaltflächen, Textfelder und Schieberegler verwenden. Je nach Funktion und Programm können diese Interfaces einfach oder komplex ausfallen. Manche GUIs kombinieren mehrere visuelle Elemente und sind auf die Zielgruppe der jeweiligen Anwendung abgestimmt. Wie sensibel dieser Bereich ist, haben Sie vielleicht selbst einmal erlebt, z. B. wenn es ein weitreichendes Update der Software aus Ihrem täglichen Bereich gab und die GUI ein Facelift erhalten hat. Sie müssen sich neu zurechtfinden und an den neuen Look gewöhnen. Vielleicht haben Sie auch schon die Erfahrung gemacht, ein neues Programm auszuprobieren, und die GUI war schlecht designt, nicht durchdacht oder sehr schwer zu verstehen? Wie hoch war die Wahrscheinlichkeit, dass Sie das Programm weiternutzen wollten? Dieser Problematik sind sich die KI-Anbieter durchaus bewusst. Es gilt, die Balance zwischen einfacher und intuitiver Anwendung und trotzdem individuellen Einstellmöglichkeiten zu finden. Je kleiner die Hürde ist, sich in das Programm einzuarbeiten, desto höher die Kundenbindung und die mögliche Erweiterung der Zielgruppe. Aber je professioneller der Einsatz, desto komplexer das Interface.
44 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Gestenbasierte Schnittstellen Es ist noch nicht alltäglich, aber mittels VR und AR in Verbindung mit Kameras könnten in Zukunft immer mehr Programme und Geräte über Gesten gesteuert werden. Dann braucht es weniger Eingabegeräte wie Tastaturen, Mäuse oder Controller – sondern der Kopf, die Hände, die Augen und die Stimme könnten in Verbindung mit einer VRBrille oder einem anderen Gerät völlig ausreichen, um mit KI zu arbeiten.
Bilder generiert mit verschiedenen Modellen, kombiniert mit Photoshop
Mein Lieblingsbild dazu ist das des Menschen, der ein Orchester aus verschiedensten KI-Tools dirigiert, die genau dann einsetzen, wenn sie an der Reihe sind. Wir Menschen geben nur die Impulse, also den Takt an.
KI ermöglicht in Zukunft ganz neue Formen von Maschine-Mensch-Interaktionen. Werden wir irgendwann als Dirigenten eines ganzen Orchesters an Geräten, Programmen und Peripherie mit Hilfe von Sprache und Gesten agieren? Geschieht zukünftig alles im virtuellen Raum und wir sind mittendrin?
Haptische Schnittstellen Ganz rudimentär dienen heute noch hauptsächlich handgesteuerte haptische Schnittstellen wie Knöpfe, Touch-Displays, Maus, Eingabestifte und die Tastatur zum Steuern von Geräten und der darauf installierten Software. KI wird auch diese Schnittstellen verändern, indem es sie mehr oder weniger obsolet macht. Eventuell gibt es aber auch durch KI ganz neue technologische Entwicklungen und viel intuitivere und gesündere Werkzeuge oder Arbeitsgeräte. Es ist nichts Neues, dass die Computerarbeit zu gesundheitlichen Problemen wie Bewegungsmangel, Verkürzungen, Verspannungen und Haltungsschäden führen kann. Hier sind noch spannende Entwicklungen zu erwarten.
Formen und Schnittstellen von KI | 45
Relevanz von KI im Designbereich KI kann mehr als nur Bilder und Texte generieren. Designprozesse beginnen meist nicht, wenn man ein beliebiges Programm öffnet und loslegt, sondern schon viel früher. Und ich kann KI nutzen, um diesen Designprozess zu unterstützen und somit mehr Zeit für andere Dinge zu haben. Zu allen Prozessen gehören auch unliebsamere Aufgaben, die bei den einen oder anderen Kreativen auf wenig Begeisterung stoßen, wie das Erstellen von Varianten und Formatadaptionen, das Freistellen von Produkten, das Suchen von Stockbildern oder das Sammeln von Informationen aus verschiedensten Quellen. Widmen wir uns in diesem Abschnitt einmal dem kreativen Schaffen mit KI und den Gedankengänge, die dabei aufkommen können. In den Kapiteln 2 und 3 schauen wir tiefer in diese Kreativ- und Designprozesse hinein und wie Sie KI gezielt in Ihren Workflow einbinden können.
Warum KI im Designbereich eine größere Rolle einnimmt Man kann der KI fast gar nicht entrinnen, da sie bereits in unseren Alltagsprogrammen angekommen ist. Wir haben es schon gesehen: Viele Funktionen in Designprogrammen, die wir schätzen gelernt haben, sind KI-gestützt und werden immer besser. Erinnern Sie sich noch an die Anfänge der automatisierten Freistellung in Adobe Photoshop mittels Zauberstab? Was die Funktionen wie das Objektauswahlwerkzeug heute bewerkstelligen können, ist in den meisten Fällen einfach grandios. Doch bin ich plötzlich viel schneller geworden, weil ich meine Auswahlen und Masken nicht mehr selbst mache? Nicht unbedingt, denn vielleicht probiere ich nun viel Neues aus, der Fokus liegt mehr auf der kreativen Gestaltung des Endergebnisses und weniger auf dem reinen Handwerk. Ich nutze bereits viele Möglichkeiten der Automatisierung, z. B. in meinem Bildbearbeitungsworkflow, und erreiche dadurch mehr Freiraum für den kreativen Teil der Bearbeitung und die Details. Die Wertsteigerung des Ergebnisses findet also nicht statt, indem ich schneller bin, sondern indem ich meine Aufmerksamkeit viel kreativeren Dingen widmen kann, ohne dass der Preis in die Höhe schnellt. Das hält mich konkurrenzfähig, macht mich vielleicht aber auch glücklicher bei meiner Arbeit, denn ich habe die »unliebsamen« Aufgaben abgegeben, ohne die Kontrolle darüber zu verlieren. Daher ist es sinnvoll zu überlegen, was Sie alles rund um den Kreativalltag mit Hilfe von KI automatisieren könnten! Hier einige der vielen Möglichkeiten: J J J
Zusammenfassen von Inhalten (z. B. innerhalb einer Recherche) Analyse vorhandener Daten Inspiration verschiedener Art
46 | Kapitel 1: Künstliche Intelligenz – eine Einführung
J J J J
Ideen schneller mit KI visualisieren und damit validieren Variationen und Alternativen erstellen lassen Texte in einer bestimmen Art erzeugen lassen Strategien mit Hilfe von KI entwickeln
Und das ist nur ein kleiner Einblick in die Welt der KI. In den Kapiteln 3 bis 5 geht es um den konkreten Einsatz verschiedener KI-Tools. Hiermit sollte nur verdeutlicht werden, dass die KI mehr kann, als nur schöne Bildchen und nette Gedichte zu generieren.
Welchen Wert haben die generierten Inhalte? 2019 habe ich für meine Masterarbeit zum Thema KI im Design eine Umfrage durchgeführt mit der Frage, welchen Wert KI-generierte Inhalte haben. Die meisten Befragten waren damals einer Meinung: wenig bis gar keinen. Das lag unter anderem daran, dass sich viele Menschen durch KI bedroht fühlten, aber auch daran, dass diese Inhalte maschinell erstellt wurden und wir aus vielen anderen Bereichen Massenfertigung oft als günstig und nicht von hoher Qualität einschätzen, während Handgemachtem oft ein höherer Wert zugestanden wird. Das ist natürlich persönliche Einstellungssache, aber nehmen wir die Modebranche als Beispiel: Geht man zu einem Schneider und lässt sich einen Anzug maßschneidern, kostet das sicherlich mehr als ein Anzug von der Stange. Dabei wird man aber beraten, es wird Maß genommen, man wird in die Gestaltung mit einbezogen, und am Ende wird noch einmal geschaut, ob alles auch ganz genau sitzt. Dieser Anzug wurde individuell hergestellt und hat damit einen hö heren Wert als ein Kleidungsstück, das in Massen günstig produziert wurde. So sollte es auch sein, wenn man professionelle und individuelle Designdienstleistungen in Auftrag gibt: Von der Beratung bis hin zum passgenauen Endprodukt ist der gesamte Prozess nachvollziehbar und wird in den meisten Fällen gemeinsam mit den Kund*innen durchlaufen. Ironischerweise haben Stockagenturen aus Handgemachtem digitale »Massenprodukte« erschaffen und Momentan ist es noch gelten als günstige Lösung für Kreativprojekte und als Alternative etwas Besonderes, wenn dazu, Profis mit individuellen und maßgeschneiderten Lösungen zu man mit KI Bilder genebeauftragen.
riert und für Kundenprojekte nutzt, aber bald wird das ganz normaler Alltag sein.
Momentan ist es noch etwas Besonderes, wenn man mit KI Bilder generiert und für Kundenprojekte nutzt, aber bald wird das ganz normaler Alltag sein – wie das Nutzen von Stockbildern. Meine Erfahrung in den letzten Jahren zeigte, dass Kunden und Kundinnen wenig interessiert daran waren, wie verwendete Bilder entstanden waren. Ihnen war das Endergebnis wichtig, und daher kann man sich bei der Angebotserstellung auf den kreativen Prozess berufen, der nötig ist, um zu dem Ergebnis zu gelangen.
Relevanz von KI im Designbereich | 47
In der Kunst hat KI schon vor Jahren eine Bühne erhalten, und KI-Künstler*innen haben mit Hilfe der Technologie beeindruckende Werke vollbracht. Meist steht hinter Kunst der Prozess und der oder die Künstler*in an sich: Im Jahr 2018 wurde beispielsweise das KI-gemalte Kunstwerk »Edmond de Belamy« des französischen Künstlerkollektivs Obvious beim Auktionshaus Christie’s in New York für 432.500 Dollar (380.500 Euro) versteigert. Doch nun sind wir in einer neuen Arbeitswelt angelangt, und generative KI ist allen zugänglich, die einen Computer und Internet besitzen. Ja sogar ein Smartphone reicht aus, um auf die neue Technologie zuzugreifen. Nur noch von ganz bestimmten Künstlern und Künstlerinnen werden KI-Bilder als besonders betrachtet, ansonsten kann man damit in Anbetracht der Masse an KI-Bildern nur noch wenig Aufmerksamkeit erreichen. Es finden sich aber immer wieder Menschen, die gewissen Dingen mehr Wert beimessen als andere. Was für die einen wertvolle Sammlerstücke sind, können in den Augen anderer einfach nur Staubfänger sein. Das gilt genauso für die digitale Welt, in der manch einer Millionen für NFTs oder ein Grundstück im Metaversum bezahlt hat. Nun ist es schwierig, angewandtes Design mit Kunst zu vergleichen, weil bei der Kunst ganz andere Faktoren mit hineinspielen. Und sogar bei maßgeschneiderter Kleidung versus Kleidung von der Stange können Wertunterschiede entstehen, wenn diese von einer hochpreisigen Marke stammt oder ein berühmter Designer das Schnittmuster entwickelt hat. Dann können industriell gefertigte Kleider sogar teurer sein als vom Schneider nebenan. Auch im Design sind Zeit und Aufwand nicht immer alleine maßgebend für den Wert des Endergebnisses. Wer also regelmäßig mit KI arbeiten möchte, sollte sich Gedanken machen, wie man das Ganze am Ende so in Rechnung stellen kann, dass es fair für alle Beteiligten ausgeht. Hier ein paar Anhaltspunkte, welche KI-relevanten Bereiche Sie in einer Kalkulation bedenken sollten: J J J J J J J J
Auswahl des richtigen Tools für den jeweiligen Zweck Entwicklung und Anpassung der Prompts Prüfung, Anpassung und Bearbeitung der generierten Inhalte eventuelle Unterhaltskosten für meist mehrere KI-Tools Aufwand, ein KI-Modell selbst zu trainieren (z. B. bei größeren Projekten) Weiterbildung über die Nutzung von KI-Modellen, Nutzungsrechte und Co. Training und Übung mit diversen Tools sich auf dem neuesten Stand halten
48 | Kapitel 1: Künstliche Intelligenz – eine Einführung
Bild links mit DALL-E 3, rechts mit Midjourney generiert
Kreativität aus der Dose dank KI? Transparenz und Aufklärung helfen anderen, den Wert von KI-generierten Inhalten zu erkennen.
Vielleicht ist das Ergebnis am Ende schneller generiert als handgemacht, aber wie bei fast allem, was wir tun, haben wir Zeit, Wissen und Arbeit sowie Geld hineingesteckt, um überhaupt zu diesem Punkt zu gelangen. Vielleicht hat das generierte Bild einen weniger emotionalen Wert, weil kein Herzblut und nicht viel Übung und technisches Geschick in die Erstellung eingebracht wurden. Das hat man bei Stockbildern genauso wenig – doch alleine die Idee, dieses und jenes Bild zu einem neuen und kreativen Projekt zusammenzufügen und damit etwas Einzigartiges zu schaffen, bringt diesen Mehrwert mit, den unsere Kunden und Kundinnen sich wünschen. Wir können also dem, was wir mit KI kreieren, diesen Wert verleihen. Er kann nur von uns selbst kommen und damit auch nur durch uns an die weitertransportiert werden, die wir damit erreichen wollen. Der Wert liegt im Auge des Betrachters und kann nicht allgemein festgelegt werden. Wenn Sie mit KI arbeiten, müssen Sie aber damit rechnen, dass manche Personen dies ablehnen oder Ihrem Werk später den Wert absprechen werden. Hier könnte durch Aufklärung und die bereits genannte Transparenz ein größeres Verständnis erreicht werden, damit die eigene Arbeit bzw. die Kundenbeziehung nicht plötzlich unter dem Einsatz von KI-Tools leidet. In den nächsten Kapiteln werden Sie lernen, KI für Ihre Kreativität zu nutzen und neue Inhalte damit zu generieren. Sie werden sehen, wie komplex die Arbeit mit KI sein kann und welche Herausforderungen diese mit sich bringt. Und Sie werden neue Anwendungsbereiche und Möglichkeiten für den Einsatz generativer KI in Ihrem Workflow entdecken. Gehen wir es an.
Relevanz von KI im Designbereich | 49
/imagine a photograhic scene from a film directed by Stanley Kubrick, showing a scene from the future of a graphic designer working with futuristic tools and artificial intelligence, main subject on the left side --ar 3:2
KAPITEL 2
Künstliche Intelligenz und Kreativität
KAPITEL 2
Künstliche Intelligenz und Kreativität Wir – auch ich – sprechen gerne von »uns Kreativen« oder der »Kreativbran che«, doch Kreativität ist nicht ausschließlich künstlerisch tätigen Menschen vorbehalten. In nahezu allen Lebensbereichen erzielen Menschen durch ihre Kreativität bemerkenswerte kleine wie große Erfolge. In dem Zusammenhang kann man sich Fragen stellen wie: Wie entsteht Kreativität? Was bedeutet es, kreativ zu leben und zu arbeiten? Und wie findet Künstliche Intelligenz ihren Platz in unserer kreativen Welt? Ist KI eine Bereicherung oder macht sie alles zunichte, was wir uns aufgebaut haben? Wird sie »unsere« Kreativität erlangen können? Zu all diesen Fragen gibt es natürlich keine allgemeingültigen Antwor ten, aber dank Kreativwissenschaftlern wie Edward de Bono, Mihaly Csikszent mihalyi und Co. können wir Kreativität besser einordnen und verstehen, wie Technologien und Medien sich auf die menschliche Kreativität auswirken können. Mit diesem Wissen können wir Chancen entdecken und hoffentlich die Risiken minimieren.
Ist KI kreativ? Immer wieder taucht der Begriff »Kreative KI« auf, auch ich nutze ihn gerne als Synonym für generative KI. Doch ist KI wirklich kreativ? Das Dilemma ist ähnlich gelagert wie beim Begriff der Künstlichen Intelligenz: Es steckt nicht unbedingt das drin, was draufsteht. In Kapitel 1 wurde erläutert, wie neuronale Netze funktionieren. »Kreative KI« folgt einem Muster – dem Algorithmus – und erstellt nach intensivem Training mit großen Mengen an Daten tausende mögliche Lösungsversuche einer Aufgabenstellung und präsentiert dann das wahrscheinlichste Ergebnis. Wir Menschen »funktionieren« laut Edward de Bono, Mediziner, Kognitionswissenschaftler und Begründer des lateralen Denkens, ähnlich. Er vergleicht das menschliche Gehirn mit einem Computer, der erlernte Handlungsmuster immer wieder abruft und durchspielen kann. Wir machen das aber weniger stur und beschränkt als der Computer bzw. die KI, denn bei uns spielen weitere Faktoren eine Rolle, wie kreativ wir an eine Lösung herangehen können: Dazu gehören Erfahrungen, Emotionen, das Hinterfragen von Aufgabenstellungen, Empathie uvm. Trotzdem kann KI einen Einfluss auf unsere Kreativität haben, was wir uns in diesem Kapitel näher anschauen wollen.
52 | Kapitel 2: Künstliche Intelligenz und Kreativität
Was ist Kreativität eigentlich? Um zu verstehen, ob KI kreativ sein und wie sich KI auf unsere Kreativität auswirken kann, brauchen wir zuerst eine Definition von Kreativität. Das ist wie bei der Intelligenz gar nicht so einfach. In der Wissenschaft gibt es einige anerkannte Theorien, was Kreativität ist und was sie beinhaltet. Aber es gibt Bereiche im Kreativprozess, die unerklärlich sind und vielleicht auch bleiben.
Definition »Kreativität« Kreativität – dem Begriff ist der Autor Gerald Steiner in seinem Buch »Das Planetenmodell der kollaborativen Kreativität« analytisch auf den Grund gegangen. Er beginnt mit einer einfachen lexikografischen Definition und vertieft das Thema mit ausgewählten Definitionen verschiedener Repräsentanten aus der Kreativitätsforschung. Das Wort »Kreativität« stammt vom lateinischen »creare« ab, was »schaffen«, »gebären« oder »erzeugen« bedeutet. Es steht nach Meyers Lexikon für die »Fähigkeit, originelle, ungewöhnliche Einfälle zu entwickeln und sie produktiv umzusetzen«. Der Duden spricht von einer »schöpferischen Kraft«.
Kreativität ist nicht nur das Privileg berühmter Künstlerinnen und Künstler oder »von uns Kreativen«, d ie in der Kreativbranche arbeiten. Vielmehr ist sie überall um uns herum, oft versteckt im Alltäglichen. Jetzt kommt die KI ins Spiel und verändert unsere Sicht auf die Kreativität. Sie macht kreatives Schaffen KI macht kreatives zugänglicher, indem sie u nsere Fähigkeiten erweitert und damit mehr Schaffen zugänglicher Menschen ermöglicht, ihre Ideen zu verwirklichen. Für Designer*innen bedeutet das eine spannende Zeit: Die Grenzen dessen, was als »kreativ« gilt, verschieben s ich. Eventuell ergibt sich daraus sogar ein Konflikt mit der eigenen kreativen Identität. Was wir bereits gesehen haben: Für viele stellt sich diese Tatsache als eine Bedrohung dar. Dabei müssen wir verstehen, dass auch der Kreativprozess eine Anreihung von Algorithmen ist und wir – ähnlich wie die KI – auf Basis von Daten vorhandene Informationen und Wissen zu etwas Neuem kombinieren. Designen bedeutet, eine Reihe an Entscheidungen zu treffen, und zwar auf Basis unseres Wissens, unserer Fähigkeiten und unserer Vorstellungskraft. Um dieses Können zu erlangen, braucht es Jahre an Ausbildung und Erfahrung. Bedenken Sie immer wieder: KI ist dabei weniger eine Bedrohung, sondern vielmehr ein Werkzeug, das neue Perspektiven eröffnet. Sie kann den Kreativprozess entzünden, indem sie inspiriert, sie kann unterstützen, indem sie entlastet, oder auch ergänzen, indem sie einzelne Teile zum Gesamten beiträgt. Letztendlich entscheidet immer die Zielgruppe unserer Arbeit, was ankommt und was nicht – aber KI könnte uns helfen, den kreativen Funken in uns allen zu entfachen.
Ist KI kreativ? | 53
Kreativität ist wie ein Verkehrsunfall Was braucht es wirklich, um als Individuum als kreativ zu gelten? Mihaly Csikszentmihalyi, ungarischer emeritierter Professor für Psychologie an der Universität in Chicago, geht in seinem Buch »Flow und Kreativität« auf die Kreativität des Einzelnen ein. Er schreibt, dass man bei den meisten Untersuchungen über Kreativität die Individuen untersucht, um den Prozess des kreativen Denkens zu entschlüsseln. Doch auch wenn hinter einer Idee oder Neuheit meistens ein Mensch steht, bedeutet das nicht, dass diese Person automatisch über ein charakteristisches Merkmal verfügt, das diese Leistung hervorgebracht hat.
Bild generiert mit ChatGPT und DALL-E 3
Er vergleicht Kreativität mit der Beteiligung an einem Verkehrsunfall – vielleicht sind manche Personen durch ihre Eigenschaften eher an Unfällen beteiligt als andere, aber solch ein Unfall entsteht meist nicht nur durch eine einzige Person im Straßenverkehr. Es gibt viele Umstände, die dazu führen und die wir nicht beeinflussen können: das Wetter, der Straßenzustand, ein Defekt am Fahrzeug, das Verhalten anderer Verkehrsteilnehmer*innen usw. Daher ist die Kreativität wie ein Unfall und laut Csikszentmihalyi eher eine systemische Eigenschaft als eine individuelle.
Kreativität als Verkehrsunfall – eine Metapher von Csikszentmihalyi über die Frage, ob Kreativität nur bestimmten Individuen zuzuschreiben ist oder doch etwas, was in der Gesellschaft stattfindet und in jedem von uns steckt.
Nicht alles ist automatisch kreativ Nicht alles, was ich als Designerin kreiere, ist unbedingt kreativ. So ist es auch mit den mit KI erstellten Inhalten. John Smith, Manager of Multimedia and Vision at IBM Re-
54 | Kapitel 2: Künstliche Intelligenz und Kreativität
search, hat es sehr gut auf den Punkt gebracht: »It’s easy for AI to come up with something novel just randomly. But it’s very hard to come up with something that is novel and unexpected and useful.« Übersetzt bedeutet das sinngemäß, dass es für KI einfach ist, zufällig etwas Neues zu schaffen. Aber es ist sehr schwer, etwas zu erschaffen, das neu, unerwartet und nützlich ist. Schaut man Es ist schwer, etwas sich die zahlreichen KI-Bilder und -Texte genauer an, die im Internet zu erschaffen, das kursieren, so sind die wenigsten nützlich und anwendungsorientiert, neu, unerwartet und sondern eher schnell konsumierbar und aufmerksamkeitserregend genützlich ist nug, um auf Social Media ein paar Likes zu erzeugen. Bilder und Texte zu erzeugen, die für die kommerzielle oder künstlerische Praxis nutzbar sind und noch einen Mehrwert bringen, ist immer noch viel und harte Arbeit – KI-Tool hin oder her. Der oder dem einen fällt es mit KI vielleicht leichter, solche neuen Ideen zu entwickeln, aber ganz ohne menschliche Kreativität bringt einem die beste Bild- und Textgenerierungsmaschine nichts. Betrachtet man alle Erkenntnisse über Kreativität und vergleicht sie mit den heutigen generativen KI-Modellen, ist es nicht mehr so abwegig, dass KI als »Kreative KI« bezeichnet wird. Zumindest ist sie eine große Hilfe, um Kreatives zu schaffen – der Impuls dazu kommt aber immer vom Menschen selbst.
Menschliche Kreativität vs. KI-Kreativität In einer Studie der Universität von Montana hat die Künstliche Intelligenz ChatGPT beeindruckende Fähigkeiten im kreativen Denken unter Beweis gestellt. Sie hat sich nicht nur mit menschlichen Denker*innen gemessen, sondern ist sogar in die Top 1 % der kreativsten Studienteilnehmer*innen aufgestiegen. Die Forscher, unter der Leitung von Dr. Erik Guzik, nutzten die »Torrance Tests of Creative Thinking«, um die Kreativität von ChatGPT zu bewerten. Die KI zeigte die bemerkenswerte Fähigkeit, eine Vielzahl von Ideen zu generieren und dabei eine hohe Originalität zu bewahren.
Torrance Tests of Creative Thinking (TTCT) Die TTCT sind eine Reihe von Tests, die entwickelt wurden, um Kreativität zu messen. Sie wurden von dem Psychologen Ellis Paul Torrance erstellt und sind in der Bildung weit verbreitet. Die TTCT sind in zwei Formen erhältlich: verbal und figural. Die verbale Form, mit der ChatGPT getestet wurde, fordert die Teilnehmer auf, schriftliche Antworten auf offene Fragen zu geben. Die Antworten werden auf folgende Kriterien geprüft: Redegewandtheit (Anzahl der Ideen), Flexibilität (Vielfalt der Ideen), Originalität (Einzigartigkeit der Ideen) und Ausarbeitung (Details der Ideen).
Ist KI kreativ? | 55
prompt creativity as a person, photorealistic
prompt creativity is a machine, photorealistic
negative prompt robot, human, person, man, woman, skin
Die Forscher waren beeindruckt von den originellen Antworten von ChatGPT und testeten damit ihre Kreativität. Die KI generierte nicht nur relevante, sondern auch besonders innovative Ideen, was auf ihre potenzielle Rolle in der Geschäftswelt und als Innovationsmotor hinweist. Dies verändert unsere Sichtweise auf Kreativität und Innovation. Allerdings basiert eine Sprach-KI, wie Sie in Kapitel 1 gelesen haben, auf gegebenen Inputs und generiert Antworten ohne eigenes Bewusstsein. Die Ergebnisse entspringen also nicht einer selbstbewussten Kreativität. Kreativität ist vielfältig, und Menschen vereinen in ihrem Schaffen oft komplexe Fähigkeiten und Interessen, was auch im breit gefächerten Training von KI-Modellen reflektiert wird. Ein bestandener Test macht KI also noch nicht zur Kreativmaschine, aber zeigt, wo ihre Stärken sind und wie wir sie nutzen könnten. Zudem ist das Wissen vieler KI-Modelle meist breitgefächert und es fehlt an spezifischem Fachwissen in vielen Bereichen.
Ist Schönheit berechenbar? Wie kann KI eigentlich »sehen« oder erkennen, ob sie eine gelungene Komposition erstellt hat oder nicht? Natürlich zunächst anhand ausgewählter und geeigneter Trainingsdaten und des manuellen Feedbacks, das die KI von Menschen erhält, wenn sie etwas generiert hat. Aber es gibt natürlich auch die Möglichkeit, eine Komposition zu berechnen. Viele Strukturen in der Natur unterliegen sogenannten Zahlenreihen und kommen daher in unserem Alltag häufiger vor. Proportionen, die als besonders angenehm erscheinen, wenn wir sie betrachten. Wir nutzen diese Regeln und können uns für unsere Bilder und Kunstwerke daran orientieren. Oft machen Künstler und Designerinnen das unbewusst, weil sie ein Auge für Schönheit und Komposition haben. Wer, wenn nicht KI, profitiert davon, dass Schönheit und Ästhetik nicht rein subjektiv sind, sondern auf mathematischen Regeln basieren können? Die Fibonacci-Reihe Die wohl bekannteste Zahlenfolge ist die Fibonacci-Reihe. Sie wurde erstmals 1202 von Leonardo von Pisa (Fibonacci) in seinem Buch »Liber Abaci« veröffentlicht, man vermutet allerdings, dass sie bereits länger bekannt war. Man braucht lediglich die beiden ersten Zahlen, 1 und 1. Diese addieren sich zu einer 2. Die Zahl Fibonacci-Reihe: vor der 2, also die 1, wird mit der 2 addiert, und es entsteht eine 3. 1, 1, 2, 3, 5, 8, 13, 21, 34, So kann die Zahlenreihe unendlich weitergeführt werden. Das In55, 89, 144, 233, 377, teressante an dieser Zahlenreihe ist, dass sie sich in der Natur wie610, 987, 1.597, 2.584 ... derfindet, z. B. bei Spiralen, wie sie in der Anordnung der Samen von Sonnenblumen zu finden sind. So bestehen diese beispielsweise aus 34 Reihen in die eine Richtung und 55 Reihen in die andere Richtung. Zahlreiche Kreative in der Kunst und sogar im Bereich Musik haben die Fibonacci-Zahlen als Grundlage ihrer Werke verwendet. Sehen wir uns von KI generierte Bilder an, lässt sich feststellen, dass die KI-Modelle ebenfalls etwas mit dem Begriff anfangen können.
58 | Kapitel 2: Künstliche Intelligenz und Kreativität
Bild links generiert mit Runway, Bild rechts mit Midjourney
Diese Beispiele zeigen, dass die KI-Modelle etwas mit der Fibonacci-Reihe anfangen können.
Bild links mit Adobe Firefly, rechts mit Midjourney generiert
Der Goldene Schnitt Wie neuere Studien zeigen, wird eine Proportionierung nach dem Goldenen Schnitt in allen Kulturen als besonders wohlgefällig beurteilt. Die Zahl 1,618… bezeichnet das Verhältnis der Teile eines Ganzen zueinander, die goldene Proportion. Das Verhältnis 1:2 wird allgemein als schön, harmonisch und ästhetisch emp- 1,618033988... funden. Auch für den Goldenen Schnitt gibt es in der Natur Beispiele, wie Goldener Schnitt Wachstumsmuster von Sonnenblumen oder Kiefernzapfen. Symmetrie oder der Goldene Schnitt lösen eine Resonanz mehrerer Cortexbereiche unseres Gehirns aus. Und wenn man einen Sinn anspricht, werden gleichzeitig auch andere Sinne und unser Denkvermögen beeinflusst.
Links wurde mit dem Bildausschnitt nachgeholfen, rechts ist die Person tatsächlich von der KI im Goldenen Schnitt platziert worden.
Ist KI kreativ? | 59
Bild links mit DreamStudio, rechts mit Midjourney generiert
Die Drittel-Regel In der Fotografie bezeichnet die Drittel-Regel (oder Regel der Drittel) eine einfache Methode, um das Hauptmotiv eines Bildes zu positionieren. Das Bild wird gedanklich in neun gleiche Teile unterteilt, indem es durch zwei gleichmäßig angeordnete horizontale und zwei vertikale Linien komponiert wird. Die wichtigen Elemente oder Subjekte des Bildes werden dann entlang dieser Linien oder an ihren Schnittpunkten platziert. Die Drittel-Regel ist jedoch keine strenge Regel, sondern eher eine praktische Hilfe, um über die Komposition nachzudenken und visuell ansprechende Bilder zu erstellen. Es gibt viele großartige Fotos, die die Drittel-Regel nicht befolgen. Manchmal ist es sogar tatsächlich sinnvoll, Gestaltungsregeln zu brechen, je nachdem, was Sie visuell ausdrücken möchten.
Das linke Bild ist von der KI bereits gemäß der Drittel-Regel komponiert worden, das rechte wurde mit Hilfe des Bildausschnitts entsprechend angeordnet.
Weitere Formeln, Gesetze und Regeln Neben dem Bildaufbau und der Komposition gibt es noch weitere Formeln und Regeln, die uns dabei helfen, gute Designs zu erstellen. Es gibt die Gestaltgesetze, Farbpsychologie und Farbharmonie, Kontraste, Regeln zur Schriftmischung, die 10 Thesen für gutes Design nach Dieter Rams, die 10 Gebote der Typografie von Kurt Weidemann usw. Im Laufe unserer Ausbildung begegnen wir vielen solcher Regeln und Formeln. Sie zu befolgen gibt uns am Anfang mehr Sicherheit, sie bewusst zu brechen kann ein Stilmittel sein. Solche theoretischen Ansätze bilden eine Art Leitplanke, an der wir uns orientieren, mal entlangschlittern oder die wir ganz durchbrechen können. KI kann sich ebenfalls an solchen Regeln orientieren, aber sich nicht bewusst für oder gegen eine solche Regel entscheiden. Es macht derzeit eher den Anschein, dass der Bildaufbau eher zufällig einer Kompositionsregel unterliegt, als dass diese ein bewusstes Gestaltungsmittel der KI ist.
60 | Kapitel 2: Künstliche Intelligenz und Kreativität
PRAXIS KI-Bilder auf Kompositionsregeln analysiert
Versuchsaufbau Für dieses Buch, aber auch für Kundenprojekte, habe ich viele Bilder generiert und gehe diese einmal durch, um zu sehen, wie die generativen KI-Modelle Hauptmotive platzieren, wenn man nichts in dieser Art vorgibt. Nun wähle ich verschiedene Bilder in unterschiedlichen Formaten aus und untersuche jedes Bild mit Hilfe der Überlagerungsoptionen in Adobe Photoshop auf eines der Gestaltungsraster.
Bild generiert mit ChatGPT und DALL-E 3
Kommen wir zu einem Praxistest. Wäre es nicht interessant, herauszufinden, ob generative KI sich mathematischer Regeln bedient? Aus die sem Grund machen wir einmal einen Test, schauen uns verschiedene generierte Bilder an und prüfen so, ob diese mit Hilfe einer der genannten Kompositionsregeln gestaltet wurden oder nicht.
Bei diesem Bild ist die Kamera im Goldenen Schnitt positioniert, und auch die Person ist nicht ganz mittig, sondern eher auf der Linie des Goldenen Schnitts platziert worden.
Überlagerungsoptionen nutzen
Was ist das Ergebnis? Auffällig ist, dass die meisten Hauptmotive der Bilder mittig platziert sind. Am zweithäufigsten finden der Goldene Schnitt und die Drittelregel Anwendung. Sehr selten kommen auch Bilder zustande, die nach der Fibonacci-Reihe komponiert sind. Einige von mir analysierte Bilder mit den darübergelegten Kompositionen sehen Sie hier und auf der folgenden Seite.
Bild generiert mit Midjourney
Das geht ganz einfach in Photoshop, dort gibt es beim Freistellungswerkzeug oben im Steuerungsbedienfeld versteckt die Funktion »Überlagerungsoptionen«.
Dieses Bild ist ein wunderbares Beispiel für die Bildkomposition nach der Fibonacci-Spirale.
Praxis: KI-Bilder auf Kompositionsregeln analysiert | 61
Bild generiert mit Midjourney, Screenshot aus Adobe Photoshop Bild generiert mit Midjourney, Screenshot aus Adobe Photoshop
Die meisten generierten Bilder haben das Hauptmotiv in der Mitte. Auch Symmetrie kann eine schöne Gestaltungsmöglichkeit sein, aber auch schnell langweilig werden, wenn man sie inflationär nutzt.
Spannend ist bei diesem Bild, dass es fast nach der Fibonacci-Spirale aufgebaut wurde. Ob es nur Zufall ist, werden wir nie wissen. Aber im Prompt wurde dies nicht speziell angefordert.
62 | Praxis: KI-Bilder auf Kompositionsregeln analysiert
Kompositionsregeln vorgeben Hilfreich wäre es, wenn wir Kompositionsregeln vorgeben könnten. Da es sich hier um mathematische Gleichungen handelt, sollte es für KI doch kein Problem sein, diese zu verstehen. Sie versteht sie auch, aber nicht so, wie ich es mir wünschen würde.
Das Ergebnis Meine Versuchsreihe ist natürlich keine wissenschaftliche Untersuchung. Ich konnte auch noch keine Studie dazu finden, daher müssen wir uns mit dem Ergebnis meiner oder Ihrer Erfahrung begnügen.
Bild generiert mit ChatGPT und DALL-E 3
Die generative KI scheint wenig abwechslungsreich mit der Bildkomposition zu sein, wenn man ihr nichts vorgibt. Tatsächlich scheinen alle Bild-KIs das zentrierte Bild zu bevorzugen, da sehr viele generierte Bilder ihr Hauptmotiv mittig platziert haben. Nicht sehr praktisch, wenn man auf dem Bild noch Text platzieren oder es wie hier im Buch auf einer Doppelseite mit einem Falz in der Mitte einsetzen möchte.
Tipps für mehr Abwechslung
Dieses Bild wollte ich von ChatGPT nach der Fibonacci-Spirale angeordnet haben. Das hat die KI wortwörtlich genommen.
Eine stets mittige Positionierung kann auf Dauer austauschbar und auch weniger aufmerksamkeitsstark sein. Hier können Sie nachhelfen, wenn Sie Ihren KI-Bildern noch das gewisse Etwas mitgeben möchten. J J
Zuschneiden der Bilder (empfohlen) Bildaufbau in den Prompt einbauen, was leider sehr selten gelingt
Bild generiert mit Stable Diffusion über DreamStudio
Wenn nicht genug dran ist zum Zuschneiden, kann das Bild vorher mit KI-Tools erweitert werden, wie im Beispiel auf der folgenden Seite.
Auch der Goldene Schnitt war eine Herausforderung. Gerne werden stattdessen goldene Details im Bild verwendet.
Am Ende bleibt es unsere eigene Entscheidung, wie wir mit den Bildern weiter verfahren. Hoffentlich wird es im Laufe der Zeit Modelle geben, die solche Anweisungen besser verstehen oder Möglichkeit bieten, die Komposition des Bildes vorzugeben. Bis dahin zeige ich Ihnen auf der folgenden Seite einen Workaround, wie Sie schnell und einfach Bilder neu komponieren können.
Praxis: KI-Bilder auf Kompositionsregeln analysiert | 63
Komposition durch Bildzuschnitt Bilder zuzuschneiden funktioniert nicht bei jedem Bild, z. B. weil wir nicht genug Material haben, um es nach unseren Vorstellungen zu gestalten. Aber auch dafür hat KI eine Antwort. Einige KI-Modelle wie Midjourney, DALL-E, Stable Diffusion oder Runway bieten das Erweitern von Bildern an. Ich selbst bevorzuge Bilderweiterungen mit Hilfe von Prompts, um mehr Kontrolle über das Ergebnis zu erhalten.
Zunächst positioniere ich mir das Bild in Photoshop mit dem Freistellungswerkzeug und eingeschalteten Hilfslinien für den Goldenen Schnitt.
Das bestehende Bild wird passend auf den Goldenen Schnitt positioniert.
Jetzt kann ich den transparenten Bereich auswählen und mittels der generativen Funktion erweitern lassen. In meinem Beispiel habe ich das Promptfeld leer gelassen. Das Ergebnis kann sich sehen lassen.
Aus diesem Bild wurde mit »Zoom Out« in Midjourney bereits mehrmals herausgezoomt. Nun kann es zugeschnitten werden. Ich möchte das quadratische Bild in ein Querformat bringen.
Komposition mit »Generativ Erweitern« In Adobe Photoshop geht das Erweitern eines Bildes mit der KI-Funktion »Generatives Erweitern«. Dabei kann ich nicht nur mittels Prompt Bildteile hinzufügen oder entfernen, sondern auch feinere Auswahlen treffen, die bisher kein anderes KI-Werkzeug bietet.
Die KI hat das Bild sinnvoll erweitert und das Motiv liegt nun wie gewünscht im Goldenen Schnitt.
64 | Praxis: KI-Bilder auf Kompositionsregeln analysiert
Auswirkungen von KI auf die eigene Kreativität Zwar gibt es auf die Frage, ob KI kreativ ist, keine allgemeingültige Antwort, aber es gibt Studien und Forschung dazu, wie sich KI und andere Medien auf die menschliche Kreativität auswirken können. Eines vorweg: Auf sehr viele Bereiche im Leben haben wir selbst am meisten Einfluss, und wir können entscheiden, wie sehr wir etwas an uns heranlassen. KI ist zur jetzigen Zeit eine der größten Erfindungen der Menschheit, und wir können sie nicht mehr ignorieren. Wir können ihr nicht einmal aus dem Weg gehen, weil sie in vielen Lebensbereichen schon längst angekommen ist. Sorgen wir also gemeinsam dafür, dass sich das nicht negativ auf unsere Kreativität auswirkt.
Kann KI die eigene Kreativität hemmen? Zuerst sollten wir uns anschauen, welche negativen Einflüsse KI auf die menschliche Kreativität haben kann. Die bereits angesprochene mediale und sehr emotionale Debatte rund um das Thema KI kann ein erster Faktor sein, der uns in unserer Kreativität hemmen könnte. Emotionen wirken sich nach- Negative Emotionen weislich auf die menschliche Kreativität aus. Angst und negative können ein KreativiEmotionen – wie die Angst vor Jobverlust, Angst, »abgehängt« zu tätskiller sein werden, wenn man mit neuen Entwicklungen nicht mithalten kann, oder einfach Wut, dass plötzlich überall davon geredet wird, wie toll KI ist und wie sie unser Leben verändert: All diese Emotionen sind ein regelrechter Killer unserer kreativen Leistung. Daher ist es umso wichtiger, sich mit dem Thema auseinanderzusetzen. Der Durchschnitt ist nicht genug Wenn wir uns zu sehr auf die Technologie verlassen, dann vergessen wir, wie es ist, selbst kreativ zu werden. Die Verlockung ist groß, mal schnell einen Text oder ein Bild generieren zu lassen. Haben Sie schon einmal den Spruch gehört, dass die ersten 2–3 Ideen die sind, auf die jeder zuerst kommen wird? Und dass erst das, was danach kommt, die Chance hat, neu und innovativ zu sein? Diese Regel kann man nicht immer anwenden, aber sie trifft schon recht häufig zu. Gute Gestaltung geht also die Extrameile, um einzigartige Ideen zu entwickeln. Es wird oft unterschätzt, welche Leistung in kreativer Arbeit steckt. Die Gefahr im Zusammenhang mit KI besteht also darin, dass wir uns mit der durchschnittlichen Lösung zufriedengeben. Die KI generiert ja nicht die einzigartige Lösung einer Aufgabe, sondern die, die massentauglich ist und am wahrscheinlichsten akzeptiert wird. Das ist manchmal gut, aber im Kreativprozess eher hinderlich. Auch wenn »Entwürfe« einer generativen KI professionell wirken, sind diese das Ergebnis aus begrenzten Trainingsdaten und Feedback von Usern, also der Masse an Menschen, die diese Technologie nutzen. Und das sind nicht nur Gestalterinnen oder Künstler. Wir müssen für uns selbst überlegen, ob das der Weg ist, den wir gehen möchten.
Auswirkungen von KI auf die eigene Kreativität | 65
Evolution vs. Realitätscheck Wir Menschen sind zudem wahre Meister im negativen Denken. Paul Watzlawick schreibt in seinem Bestseller »Anleitung zum Unglücklichsein« auf eine sehr ironische Art und Weise darüber, wie wir es immer wieder schaffen, uns selbst in einen Zustand des Unglücklichseins zu bringen, der wiederum unserer Kreativität im Wege steht. Besonders einfach ist es, das eigene Glück und Unglück von äußeren Faktoren abhängig zu machen. Zuletzt waren es die Pandemie und deren Folgen, die uns um unsere Aufträge und Kunden gebracht haben, und nun gibt es die KI, die alles kann – und wir sind bald alle unsere Jobs los! Etwas Neues kritisch zu betrachten, steckt in unserer Natur, und das kann, evolutionsbedingt, sehr nützlich sein. Sich aber den negativen Emotionen hinzugeben, kann uns zum Verhängnis werden und uns ausbremsen. Watzlawick empfiehlt daher den Realitätscheck, der im Geiste erzeugte Probleme mit dem eigenen Geist bekämpft. Um diesen Realitätscheck durchzuführen, brauchen wir beim Thema KI eine tiefere Auseinandersetzung mit der Technologie sowie das Ausklammern der emotionalen Debatte und die Fähigkeit, diese mit Fakten zu füllen. Es bedeutet nicht, dass wir alles gut finden müssen, was in der Welt da draußen passiert. Aber es bringt uns auch nicht weiter, uns verrückt zu machen, weil wir von außen ständig Hiobsbotschaften und Spekulationen zu lesen beWir Menschen haben kommen, die darauf abzielen, unsere Aufmerksamkeit auf sich zu das Talent dazu, Ereigziehen.
nisse zu prophezeien, für deren Eintreffen wir dann auch selbst verantwortlich sind.
Ob wir das eigene Glück von äußeren Faktoren abhängig machen, liegt also zum Großteil in unserer Macht. Ähnlich wie die selbsterfüllende Prophezeiung, die Watzlawick wie folgt beschreibt: Wir Menschen haben das Talent dazu, Ereignisse zu prophezeien, für deren Eintreffen wir dann auch selbst verantwortlich sind. In der Pandemie war es die plötzliche Knappheit an Toilettenpapier, die weder technisch noch in einer anderen Art und Weise bedingt war und auf der Tatsache beruhte, dass Menschen Toilettenpapier gehortet und andere damit eine Art FOMO (fear of missing out) durchlebt und ebenfalls das flauschige Gold in unüblichen Mengen gekauft haben. Und schon gab es eine Knappheit, die unter normalen Bedingungen niemals stattgefunden hätte, denn die Fabriken und Lieferanten waren nicht auf solch einen Andrang eingestellt. So ähnlich kann es sich mit KI verhalten: Wenn wir ständig Angst davor haben, dass KI besser arbeitet als wir, so kann sich solch eine Selbstprophezeiung bewahrheiten, unterstützt dadurch, dass die Medien von weiteren Möglichkeiten und Wundern der KI berichten, die wir als gegeben hinnehmen, ohne aktiv zu werden. Damit bremst man nicht nur sich selbst aus, sondern auch die eigene Kreativität, die unter solchen Bedingungen nur schlecht gedeihen kann.
66 | Kapitel 2: Künstliche Intelligenz und Kreativität
Bild generiert mit Stable Diffusion
Im kreativen Käfig – wir Menschen schaffen es laut Paul Watzlawick immer wieder, dass wir unserem eigenen Glück und damit auch der Kreativität im Wege stehen.
Unendliche Möglichkeiten – Fluch und Segen zugleich Sich mit neuen Technologien auseinanderzusetzen, kostet Zeit und Geld. Das Erlernen von Prompts oder Funktionen kann mühsam sein, und auch wenn es etliche Beispiele, Promptlisten und Tutorials dazu gibt, steht man vor der Frage, welche Begriffe und Befehle die richtigen für das eigene Projekt sind. Zudem erscheinen im Abstand von wenigen Monaten immer wieder neue KI-Modelle mit neuen Funktionen und Updates, die neu erlernt werden wollen. Bei bisherigen Programmen war es so: Wenn man einmal eine Funktion verstanden hatte, konnte man sie immer wieder anwenden, wenn auch auf verschiedene Arten und Weisen. Manchmal konnten verschiedene Funktionen ein und dasselbe Problem lösen. Mit der Zeit hatte man den »eigenen« Weg gefunden und in den Workflow integriert.
Auswirkungen von KI auf die eigene Kreativität | 67
Das ist bei KI anders, zumindest bei den Systemen, bei denen eine freie Texteingabe möglich ist. Es ist Fluch und Segen zugleich, die Möglichkeiten sind scheinbar unbegrenzt. Wir haben nun ein Werkzeug, das die Grenzen von fast allen bisherigen Werkzeugen und Programmen überschreitet. Es ist wie eine Wunderkiste für Kreative, die sich endlich austoben und in kurzer Zeit ein wahres Feuerwerk an Ideen generieren können. Es braucht Geduld und noch mehr Kreativität, das Ergebnis aus generativen KIs herauszubekommen, das man haben möchte. Das kann frustrierend sein und damit wieder negative Emotionen hervorrufen. Man muss in Betracht ziehen, damit zu scheitern, diese eine Sache mit der KI umzusetzen. Oder es bedarf verschiedener Umwege, wie die Kombination bisheriger Werkzeuge mit der KI. Kreative Menschen finden kreative Lösungen – so auch im Umgang mit neuen Technologien. Meistens ist es eine Mischung verschiedenster Werkzeuge und Methoden, die den eigenen Workflow begleiten. KI ist wie ein weiterer Baustein zu betrachten, den wir darin integrieren können (aber nicht müssen).
Die Extrameile beim Prompting Hier möchte ich noch einmal das Bild der Kreativität aus der Dose aus dem ersten Kapitel in Erinnerung rufen. Gibt man keine weiteren Parameter ein wie Stil, Look, Farben, Licht oder bei Texten den Stil oder einen gewünschten Textaufbau, dann kommt das, was die KI als »Standard« ausgibt. Die Mehrheit arbeitet mit solch rudimentären Prompts und erwartet Wunder. Doch je mehr Freiheit die KI hat, desto generischer – oder manchmal verrückter – wird die »Antwort« auf den Prompt. Was natürlich auch gewollt sein kann. Das ist so, als würden Sie einem Experten eine ganz allgemeine Frage stellen und dieser nun in die Tiefen seines Wissens abdriften und Ihnen viele interessante Details erzählen, aber nicht das, was Sie wissen möchten. Um an das Wissen des Experten zu kommen, müssen Sie ihn spezifisch danach fragen, was Sie wissen möchten. Das erfordert aber eine gewisse Auseinandersetzung mit einem Thema. Genau so, wie Sie im Idealfall auch an einen neuen Kreativauftrag herangehen würden: Recherche, Informationen sammeln, Zielgruppe verstehen, erste Ideen brainstormen, die besten Ideen herausarbeiten usw. Für diese Schritte können Sie ebenfalls mit den KI-Tools arbeiten, aber ohne diese Vorarbeit würden Sie selbst wahrscheinlich eher die naheliegendsten Ideen hervorbringen. Das ist die Extrameile, die im Abschnitt »Der Durchschnitt ist nicht genug« bereits genannt wurde. Wenn Sie diese gehen, werden Sie sich von anderen Kreativen immer abheben, ob mit oder ohne KI. In Kapitel 3 werden wir uns einen beispielhaften Kreativworkflow anschauen und sehen, wie KI dort integriert werden könnte. Gehen Sie auch bei Ihren Versuchen diese Extrameile, und die KI wird Sie mit besseren und kreativeren Ergebnissen belohnen.
68 | Kapitel 2: Künstliche Intelligenz und Kreativität
Erwartungshaltung vs. Realität Ein guter Realitätscheck ist es, die eigene Erwartungshaltung gegenüber KI zu prüfen und gegebenenfalls zu korrigieren. Mit Ihrem jetzigen Wissen können Sie die Fähigkeiten und Grenzen von KI besser einschätzen, und im Laufe des Buchs werden Sie lernen, diese zu nutzen oder sich nach anderen oder ergänzenden Werkzeugen umzusehen. Zudem werden diese Werkzeuge schneller weiterentwickelt, als wir es bisher gewohnt sind. Um ein Bild aufzuhängen, kann ich einen Hammer nutzen, aber es gibt noch viele andere Möglichkeiten, die es zu prüfen gilt, bevor ich ein Loch in die Wand mache. Vielleicht hat man früher immer den Hammer genutzt, aber eventuell gibt es heute noch bessere Methoden und Werkzeuge für das gleiche Problem. Flexibilität ist hier der Schlüssel zum Erfolg: Statt auf Altbewährtes zu bestehen, können sich Kreative oft schneller und besser an neue Gegebenheiten anpassen. Nutzen Sie diese Fähigkeit nicht nur für Ihre Kunden und Kundinnen, sondern auch für sich selbst. Gehen wir also einmal weg von der Erwartung »KI als übermächtige Ergebnisbringerin« hin zur Inspirationsquelle und zur Sandbox der eigenen Kreativität (dazu gleich mehr), dann kann der Einsatz der KI regelrecht Spaß machen. Es ist eine Zeit des Experimentierens und Lernens, um zu prüfen, wie das neue Werkzeug überhaupt funktioniert. Je offener wir gegenüber KI sind, desto mehr Je offener wir kann sie die eigene Kreativität bereichern und beflügeln. Das Arbeiten gegenüber KI sind, mit KI kann dabei helfen, die allgemeine und die eigene Erwartungshaldesto mehr kann sie tung zu prüfen und realistisch einzuschätzen. KI ist beeindruckend, die eigene Kreativität aber eben auch nicht für jedes Problem die beste Lösung. Sie macht bereichern. Fehler, bringt ungenaue Ergebnisse oder versteht nicht, was ich gerade von ihr verlange. Wie können wir KI also sinnvoll nutzen, wenn es um unsere kreative Leistung geht? Die Möglichkeiten sind so unbegrenzt wie die menschliche Kreativität. Trotzdem sollen in diesem Buch einige erprobte Anregungen und Ideen gezeigt werden, wie KI kreativ eingesetzt werden kann.
KI als Sandbox der eigenen Kreativität Der Begriff des Sandboxing kommt eigentlich aus der Programmierwelt, passt aber auch sehr gut in die Welt der Kreativität. Eingesetzt wird diese Methode, um Tests in kontrollierten und isolierten Umgebungen durchzuführen, um keine laufenden Systeme mit Fehlern oder Bugs zu stören. Auch im Gaming gibt es Spiele, die einen Sandbox-Modus anbieten. Hier können die Spieler*innen fernab der Story und der offenen Spielwelt ihre eigene Welt (fast) ohne Regeln und Handlungsstränge sowie ohne rationierte Ressourcen erkunden und sich austoben. Wie können wir das auf den eigenen Kreativworkflow anwenden? Egal ob mit oder ohne KI, solch ein Sandbox-Modus sollte in jedem Workflow seinen Platz finden, denn das ist das Tor zu neuen und innovativen Ideen. Zu oft urteilen wir schon bei der Entstehung einer Idee, ob diese überhaupt umsetzbar ist. Der innere Kritiker ist gnadenlos. Wie wir aber bereits wissen, haben sich
Auswirkungen von KI auf die eigene Kreativität | 69
schon die »verrücktesten« Ideen durchgesetzt, einfach weil man das Risiko des möglichen Scheiterns eingegangen ist. Aus Angst vor dem Scheitern bleiben manche Menschen lieber in ihrer Komfortzone und bei gewohnten Mitteln und sind so vermeintlich auf der sicheren Seite. Schalten wir also einmal den inneren Sandbox-Modus an und verabschieden uns von allen Sorgen, Gedanken und Urteilen, dann können erst die Ideen entstehen, die wir uns sonst nicht getraut hätten. Es kann ja nichts passieren, denn unsere Sandbox ist lediglich unsere Spielwiese der Kreativität. Es kann etwas daraus entstehen, muss aber nicht. Allerdings: Es ist alles erlaubt, und wir selbst machen die Regeln.
Keine Angst vor dem weißen Blatt Papier Kennen Sie das? Es steht ein neues Projekt an, und nun gilt es, kreative Ideen z. B. für das neue Produkt des Kunden zu finden. Doch man schiebt den Beginn immer weiter vor sich her – zumindest wenn man seine Zeit selbst einteilen darf. Wenn man nicht anfängt, kann es ja gar nicht schiefgehen. Doch die Deadline rückt näher, und so langsam müssen Sie anfangen. Das ist ganz typisch im Kreativprozess, und Perfektionismus spielt dieser Prokrastination noch mehr in die Karten.
Bild generiert mit Stable Diffusion
Mit KI könnten Sie das Eis brechen, indem Sie ein Tool der Wahl nutzen, um erste Ideen zu generieren und zu entwickeln. Wie, das zeige ich Ihnen in den folgenden Kapiteln. Wenn Ihnen absolut nichts einfällt oder Sie einfach »jemanden« brauchen, der eine andere Sicht in das Projekt mit einbringt, kann KI sehr behilflich sein. Auch Kreativblockaden oder Schreibblockaden könnten so gelöst werden. KI kann den Stein ins Rollen bringen und den Leistungsdruck etwas mindern, sofort mit einer bahnbrechenden Idee zu starten.
Mit Leichtigkeit über das weiße Blatt Papier surfen dank KI?
70 | Kapitel 2: Künstliche Intelligenz und Kreativität
KI als Sparringpartner Damit kommen wir zu der KI als Kollegin oder auch als Sparringpartner im Kreativprozess. Der Mensch als Impulsgeber und Denker, die KI als Partner, um die Impulse und Ideen in eine Form zu bringen, die den Menschen wiederum weiter inspiriert, bis man letztendlich zum gewünschten Endergebnis kommt. KI bringt den Perspektivwechsel, den man manchmal braucht, um aus den Gewohnheiten auszubrechen. Sie hilft, den eigenen Blick auf das Projekt zu erweitern und das eigene kreative Schaffen vom Ego zu befreien. Es ist eine harte, aber oft notwendige Lektion für uns Kreative, zu lernen, dass nicht alles, was wir produzieren, unbedingt zum Endprodukt beiträgt, egal wie sehr wir es mögen oder wie viel Arbeit wir darin investiert haben. Es fällt schwer, die tolle Idee, in die man auch noch einige Stunden Arbeit reingesteckt hat, zu verwerfen, weil sie nicht funktioniert oder bei der Zielgruppe oder beim Kunden nicht auf Zuspruch trifft. Wurde die Idee aber erst einmal mit KI »schnell« visualisiert und damit validiert, kann dies den Kreativprozess vereinfachen, und man hat den nötigen Abstand zu dem Werk, auch wenn die Idee von uns selbst kommt. Das spart unheimlich viel Zeit, und wir können durch das schnellere Visualisieren von Ideen vielleicht noch weitere und bessere Ideen finden, wenn die ersten (meist weniger originellen) aus dem Kopf sind. Ein Perspektivwechsel kann z. B. mit Hilfe von ChatGPT durchgeführt werden, indem man sie bittet, etwas aus der Sicht einer bestimmten Person zu betrachten. Das können bekannte Persönlichkeiten wie Künstlerinnen, Autoren usw. sein, aber auch eine Person aus der Zielgruppe (die vorher definierte Persona und Zielgruppenbeschreibung kann hier sehr hilfreich als Input dienen). Bildgenerierende KIs wie Midjourney können ein Bild im Stile einer Malerin malen oder eine Szene gestalten, die dem Stil eines bestimmten Regisseurs nachempfunden ist. Die Möglichkeiten sind schier unbegrenzt, probieren Sie es einfach mal aus! Im praktischen Teil des Kapitels schauen wir uns gleich die passenden Prompts dazu an. Effizienz vs. kreative Freiheit Mit KI effizient zu arbeiten bedeutet auch, zunächst eine Phase des Lernens und Ausprobierens zu überwinden. Ich werde bei meinen Vorträgen, Workshops und als Dozentin immer wieder gefragt, welche Tools ich empfehle und was die besten Prompts sind. Und jedes Mal lautet meine Antwort: »Das kommt Mit KI zu arbeiten darauf an, was man machen möchte.« Wir haben es hier mit sehr kom- bedeutet auch, eine plexen Werkzeugen zu tun. Wenn mich vorher jemand gefragt hätte, Phase des Lernens was ich für Methoden für die Bildretusche von Porträtfotos empfehlen und Ausprobierens zu würde, dann hätte ich hier einen Mix aus Techniken und Werkzeugen in überwinden Photoshop, die ich direkt erklären und empfehlen könnte. Ich könnte Angaben zu Einstellungen in den Filtern sowie auch den Werkzeugen geben, die ich präferiere und mit denen ich gute Erfahrungen gemacht habe. Die Ergebnisse sind re-
Auswirkungen von KI auf die eigene Kreativität | 71
produzierbar und die Techniken automatisierbar. Damit erreicht man eine gewisse Effizienz im Workflow, sollte man beispielsweise oft mit der Retusche von Porträts zu tun haben. Geht es aber um das Nutzen von generativer KI – einem Programm oder Werkzeug, das so viele Möglichkeiten bietet –, dann fällt es mir schwer, irgendwelche Empfehlungen auszusprechen, ohne zu wissen, was der Sinn und Zweck oder das Ausgangsmaterial ist und ob das auch zur Person und ihrer Arbeitsweise passt. Zum ersten Mal in der Geschichte gibt es Werkzeuge, die so vielseitig wie auch komplex sind, dass ihre Nutzung nur von unserer eigenen Kreativität und unseren Ideen, diese zu nutzen, gebremst werden kann. Und natürlich auch vom Können der Tools selbst. Die Ergebnisse, die KI hervorbringt, sind weder reproduzierbar noch zu 100 % steuerbar. Wir haben es schon gesehen: Selbst mit demselben Prompt wird niemals dasselbe Ergebnis entstehen. Man kann zwar mit einer gewissen Erfahrung und mit Prompttechniken einigermaßen vorhersagen, in welche Richtung das Ergebnis gehen kann, aber niemals, ob der Prompt auch für andere Anwendungszwecke funktioniert. Das macht den Einstieg schwer, denn die Programmierer entwickeln ihre KI-Modelle weiter, und auch das Prompting ändert sich dadurch. Je nach Benutzeroberfläche bieten die Modelle mehr oder weniger Möglichkeiten zur Steuerung, und dann kommt es darauf an, wie gut man sich selbst mit dem KI-Modell Wer KI zur Effizienzsteiauskennt und damit auch die »Sprache« lernt, die es versteht.
gerung nutzen möchte, sollte genau wissen, was er oder sie braucht.
Wer KI zur Effizienzsteigerung nutzen möchte, sollte genau wissen, was er oder sie braucht. Wie man das herausfindet und in den Workflow einbindet, werden Sie in den nächsten Kapiteln noch näher kennenlernen. KI ist kein Garant für Effizienz, denn auch die Lernphase sowie stetige Weiterbildung in diesem Bereich sollte mit einkalkuliert werden. Des Weiteren ist der Kreativprozess sehr komplex und kann mal schneller, mal langsamer vonstattengehen – mit oder ohne KI. Kreativität in ihrer Effizienz zu steigern kann nur in bestimmten Phasen des Prozesses funktionieren, denn wer kreative Freiheit wünscht und sucht, wird wohl eher fernab von digitalen Medien und auch KI fündig. Effizienz sollte zudem niemals zu Lasten der Qualität gehen. Schneller ist nicht immer besser, und auch wenn man Kosten und Nutzen in einem gewissen Verhältnis im Hinterkopf behalten muss, kann man wirklich kreative Ideen nicht mit einem Knopfdruck generieren. Sie entstehen innerhalb eines Prozesses, der ein Zusammenspiel vieler Variablen ist – wie bei einem Verkehrsunfall. Wie es wohl aussehen würde, wenn man versucht, einen Unfall effizienter zu machen?
72 | Kapitel 2: Künstliche Intelligenz und Kreativität
KI schafft Distanz zum gestalterischen Ego Das beste Design hat keinen Wert, wenn es sein Ziel nicht erreicht – sprich nicht den gewünschten Effekt bei einer vorher bestimmten Zielgruppe. Davon gibt es zahlreiche Beispiele aus der Designwelt, wie das Redesign des Keksherstellers Bahlsen. Es wurde in Fachkreisen gefeiert, führte aber zu Umsatzverlusten, da die Zielgruppe sich nicht mehr angesprochen fühlte. Das passiert selbst den Das beste Design hat Besten.
keinen Wert, wenn es sein Ziel nicht erreicht.
Und wie kann KI da nun eine Rolle spielen? In der angewandten Kunst sollte das eigene Ego möglichst in den Hintergrund gestellt werden. Wir gestalten für die Zielgruppe(n) – wir sollten weder uns selbst darin verwirklichen noch unsere Kunden und Kundinnen. So zumindest die Theorie, denn in der Praxis läuft das Ganze emotionaler ab, als man sich wünscht.
Kill your darlings Es hilft, die Lieblingsidee auch mal gehen zu lassen. Der Ausdruck kommt eigentlich aus der Autorenszene, aber kann auch im Design angewandt werden. Wenn etwas nicht so funktioniert wie gedacht oder dem Gesamtwerk nichts Gutes tut, dann kann es noch so schön und kreativ sein – es muss weg. Die Kunst des Weglassens ist etwas, was KI meiner Meinung nach noch nicht kann. Egal wie einfach ein Prompt ist, oft werden ungewünschte und unnötige Details hinzugefügt. Das führt schnell zu überfrachteten Darstellungen. Dann ist es unsere Aufgabe, wieder für »Ordnung« zu sorgen und so viel wie möglich wegzunehmen und nur so viel wie nötig zu belassen.
Zu diesem Thema ist die Studie über innovative Ideen von Dirk Deichmann und Markus Baer aus UK interessant, die mit Studierenden mehrere Versuche gemacht haben. Ziel war es herauszufinden, warum nach erfolgreichen Werken oft keine weiteren dieser Reihe folgen. Die Studierenden sollten Ideen für ein Kochbuch entwickeln und haben dafür ein erfundenes Feedback erhalten, das von durchschnittlich bis hin zu bahnbrechender Innovation vergeben wurde. Gerade die Studierenden, denen großer Ruhm und eine preisverdächtige Kreativität als Feedback gegeben wurde, hatten danach größere Probleme, neue kreative Ideen für ein neues Kochbuch zu entwickeln, als die Studierenden, die weniger gutes Feedback erhalten haben. Der Druck schien zu groß, wieder einen großen Wurf zu liefern, und sie fühlten sich in ihrer kreativen Identität bedroht. Vor die Wahl gestellt, einen neuen weiteren Ideenentwurf für ein weiteres Kochbuch zu erstellen oder ein völlig neues Projekt anzugehen, hat sich die Mehrheit gegen das Kochbuch entschieden. Die Angst vor dem Scheitern hinderte sie daran, weitere kreative Ideen für die Sache zu entwickeln, für die sie bereits eine Höchstleistung vollbracht hatten.
Auswirkungen von KI auf die eigene Kreativität | 73
Dagegen können, laut eines Artikels der WirtschaftsWoche über diese Studie, einige Maßnahmen getroffen werden, um solch eine Blockade aufzulösen. Ein wichtiger Aspekt ist das Verwenden eines systematischen Prozesses zum Entwickeln von Ideen. Genau dabei kann KI helfen, und wir werden uns in diesem Kapitel noch mit beispielhaften Kreativprozessen mit KI beschäftigen. Auch das Arbeiten im Team und eine förderliche Umgebung können solchen Blockaden entgegenwirken. Dies können wir zum einen mit KI als Sparringpartner erreichen oder aber auch mit dem Gutes Design muss Sandbox-Modus, in dem wir mit KI neue Ideen entwickeln, visualisiealso keinen Design ren und validieren können.
award gewinnen – es muss letztendlich funktionieren.
Gutes Design muss also keinen Design-Award gewinnen – es muss letztendlich funktionieren. Und das bedeutet auch, dass es nicht immer unseren eigenen Vorstellungen von Design und Ästhetik entsprechen muss. Meist ist es ein Kompromiss, den man macht. Und da hilft es sehr, das eigene gestalterische Ego außen vor zu lassen und den Blick von außen auf den Prozess zu richten. Natürlich hängt man an etwas, das man mit viel Liebe zum Detail entwickelt und gestaltet hat. Doch hat man die ersten Ideen mit KI generiert, um diese z. B. zu präsentieren und die Meinung der Kunden oder der Zielgruppen zu erhalten, schafft man es, sich mehr von der Gestaltung zu distanzieren und auf Feedback und Änderungswünsche objektiver zu reagieren. Der Mensch als letzte Instanz Wir nehmen also mehr die Rolle der Kuratorinnen und Kuratoren von KI-generierten Inhalten ein und können damit auch schneller herausfinden, ob wir uns auf dem Irrweg befinden, weil wir falsch abgebogen sind. Die fachlichen Kompetenzen dazu sind natürlich vorausgesetzt. KI ersetzt dabei nicht den eigentlichen Kreativprozess und muss auch nicht immer zwingend bei der Ideenentwicklung angewandt werden, aber wer lernt, diese Technologie für sich zu nutzen, kommt vielleicht schneller zu sehr guten Ergebnissen als jemand, der es nicht tut. Meiner Meinung nach wird die gestalterische Ausbildung dadurch umso wichtiger, denn nur wer die notwendigen Kompetenzen hat, ist auch in der Lage, in der Flut der generierten Inhalte das zu sehen, was letztendlich dem Zweck am besten dient, und nicht, was am schönsten aussieht. KI dient hier der Erweiterung der eigenen technischen und handwerklichen Fähigkeiten – ist jedoch nicht befähigt zu prüfen, ob die generierten Inhalte, Konzepte und Ideen auch wirklich funktionieren. Streichen wir die Menschen aus dieser Gleichung, geraten wir in einen Teufelskreis aus mittelmäßigen Inhalten, die immer wieder anders aufbereitet wurden, aber in der Mittelmäßigkeit bleiben.
74 | Kapitel 2: Künstliche Intelligenz und Kreativität
KI als Ideenmaschine
Bild generiert mit Stable Diffusion über DreamStudio
Kommen wir nun zur Praxis! In diesem Abschnitt werden wir die Rolle der KI als »Ideenmaschine« erkunden und wie sie als Katalysator für Kreativitätstechniken der nächsten Generation dienen kann. Wir werden ausprobieren, wie KI uns dabei helfen kann, über den Tellerrand hinauszudenken, indem sie uns dabei unterstützt, neue und unerwartete Verbindungen zwischen scheinbar unzusammenhängenden Ideen zu ziehen. KI hat das Potenzial, unsere kreativen Prozesse zu transformieren und zu erweitern und uns immer wieder zu inspirieren.
KI als Ideenmaschine, hier visualisiert im Steampunk-Look. Die vielen Rädchen und Knöpfe wirken geheimnisvoll und sollen die vielen Möglichkeiten von KI aufzeigen. Aber es zeigt auch die Komplexität, und man muss verstehen und wissen, wann man welches »Knöpfchen« drücken und welches »Rädchen« wie drehen muss, damit man zum gewünschten Ergebnis kommt.
Klassische Kreativitätstechniken Für Kreative sind Kreativitätstechniken wertvolle Werkzeuge, die helfen können, den kreativen Prozess zu strukturieren und zu verbessern. Sie können dazu beitragen, kreative Blockaden zu überwinden, neue Perspektiven und Ideen zu generieren und die Qualität der kreativen Arbeit zu verbessern. Sie können auch dazu beitragen, die Zusammenarbeit und das kreative Denken in Teams zu fördern. In diesem Abschnitt wollen wir uns verschiedene Kreativitätstechniken anschauen, und ich werde Ihnen ein paar Impulse geben, wie Sie diese mit Hilfe von KI auf das nächste Level bringen können.
KI als Ideenmaschine | 75
Hier ein paar beispielhafte, klassische Kreativitätstechniken, die wir gleich mit den Möglichkeiten der KI verbinden werden: J J J J J J
J J
J J
J J
Assoziationen: Verknüpfung von Ideen oder Gedanken, die auf den ersten Blick nicht zusammengehören. Zufallsprinzip: Einführung unerwarteter Elemente oder Ideen in den Denkprozess. Brainstorming: Einzel- oder Gruppenmethode, bei der alle Teilnehmer*innen frei Ideen äußern, ohne sie zu bewerten. Provokationstechnik: Absichtliche Einführung von störenden oder unerwarteten Gedanken, um neue Perspektiven zu gewinnen. 6 Denkhüte: Systematischer Ansatz, bei dem sechs verschiedene »Hüte« für verschiedene Denkarten stehen, die nacheinander »aufgesetzt« werden. Kopfstandmethode: Betrachtung eines Problems aus einer entgegengesetzten Perspektive, indem man überlegt, wie man das Gegenteil des gewünschten Ergebnisses erreicht. Die Alphabettechnik: Generierung von Ideen anhand der Buchstaben des Alphabets als Anfangsbuchstaben verschiedener Begriffe zum Thema. Analogietechnik und »Querdenken«: Verknüpfung eines bekannten Konzepts mit einem neuen, um frische Ideen zu gewinnen. Dieses Vorgehen ähnelt der Assoziationstechnik. Advocatus Diaboli: Eine Person übernimmt bewusst die Rolle des Kritikers, um mögliche Schwachstellen aufzudecken. Walt-Disney-Methode: Drei verschiedene Rollen (Träumer, Realist und Kritiker) werden nacheinander eingenommen, um Ideen von verschiedenen Blickwinkeln zu betrachten. Was-wäre-wenn-Technik: Hypothetische Fragen stellen, um die Grenzen des Denkens zu erweitern. Perspektivwechsel: Betrachtung eines Problems oder einer Situation aus der Sicht einer anderen Person oder eines anderen Standpunkts.
Einige Kreativitätstechniken funktionieren am besten, indem man sie mit mehreren Personen durchführt und einen Perspektivwechsel erreicht, um an neue Ideen und Impulse zu kommen. Doch das ist nicht immer möglich, weil man z. B. alleine und selbstständig arbeitet oder im Homeoffice sitzt und trotzdem Im hektischen Alltag geraneue Ideen entwickeln muss. Im hektischen Alltag geraten dieten diese sehr nützlichen se sehr nützlichen Techniken leider immer mehr in VergessenTechniken leider immer heit. Zwar gibt es Meetings mit Brainstormings, und es wird auch mal die eine oder andere Mindmap erstellt, aber selten mehr in Vergessenheit. habe ich es erlebt, dass man tatsächlich mit den zahlreichen anderen Kreativitätstechniken arbeitet. Sie kosten natürlich etwas Zeit, aber der Kreativitätsprozess benötigt Zeit, um gute Ideen hervorzubringen, die nicht offensichtlich und austauschbar sind.
76 | Kapitel 2: Künstliche Intelligenz und Kreativität
Bild generiert mit ChatGPT und DALL-E 3
Wie sieht Ihr Kreativprozess aus? Vielleicht könnte KI hier etwas »Ordnung« hineinbringen.
KI und Kreativitätstechniken miteinander verbinden Als Beispielprojekt nehmen wir eine Werbekampagne für einen Verlag, der Bücher für Kreative veröffentlicht. Doch bevor wir uns in die Ideen stürzen, brauchen wir zunächst
ein Briefing. Daher habe ich ChatGPT etwas Input gegeben und ein Briefing erstellen lassen, das wir als Basis für die Kreativitätstechniken nutzen können. Im folgenden Praxisbeispiel sehen Sie, wie Sie mit Hilfe von LLMs wie ChatGPT solche Kreativbriefings erstellen können. Danach sehen wir uns ein paar Möglichkeiten an, wie sich diese Modelle für die Ideenfindung nutzen lassen. Diese können Sie dann auf alle möglichen Techniken und Methoden adaptieren (oder von ChatGPT adaptieren lassen). ChatGPT wurde von mir ebenfalls genutzt, um diese Beispiele generieren zu lassen.
Grobes Briefing zur Übung Entwickle eine Werbekampagne für einen Verlag, der Bücher für Kreative veröffentlicht. Hier soll der Vorteil von Büchern in dieser schnellen und sich ständig ändernden Welt vermittelt werden. Die Kampagne soll in den Printmedien auf Plakaten und in Anzeigen von Designzeitschriften erscheinen sowie auf der Webseite des Verlags und in den sozialen Medien. Dazu brauchen wir starke Headlines, eine kreative Message, die die Zielgruppe Kreative, Designer*innen und alle, die es werden möchten, anspricht. Diese sind gerade in Zeiten von KI verunsichert und brauchen Hilfe, sich in dieser schnellen Welt besser zurechtzufinden. Daher bietet der Verlag passende Fachbücher zu wichtigen und zukunftsfähigen Themen an. Die Bücher gibt es sowohl als Printversion als auch als E-Book, das möchte der Verlag hervorheben.
KI als Ideenmaschine | 77
PRAXIS Kreativbriefing mit ChatGPT Ein Briefing hilft allen Beteiligten, das Projekt besser zu erfassen und zielgerichtet zu arbeiten. Daher brauchen wir so viele Informationen wie möglich, um das Projekt zu kalkulieren und auch durchzuführen. Hier habe ich ChatGPT-4 ein recht vages Briefing gegeben. Wenn Sie eine gewisse Vorlage haben, mit der Sie Briefings erstellen, dann können Sie diese ChatGPT zur Verfügung stellen und dann so viel Input wie möglich geben, damit die KI diesen Input in die Form Ihrer Briefingvorlage bringen kann. Das spart Zeit und hilft Ihnen beim Finden von Schwachstellen und Wissenslücken, wenn die KI etwas nicht korrekt verstanden oder erfasst hat. prompt Schreibe mir ein detailliertes Kreativbriefing für eine Werbekampagne für einen Verlag, der Bücher für Kreative veröf fentlicht. Hier soll der Vorteil von Büchern in dieser schnellen und sich ständig ändernden Welt vermittelt werden. Die Kampagne soll in den Printmedien auf Plakaten und in Anzeigen von Designzeitschriften erscheinen sowie auf der Webseite des Verlags und in den sozialen Medien. Dazu brauchen wir starke Headlines, eine kreative Message, die die Zielgruppe Kreative und alle, die es werden möchten, anspricht. Diese sind gerade in Zeiten von KI verunsichert und brauchen Hilfe, sich in dieser schnellen Welt besser zurechtzufinden. Daher bietet der Verlag passende Fachbücher zu wichtigen und zukunftsfähigen Themen an. Die Bücher gibt es sowohl als Printversion als auch als E-Book, das möchte der Verlag hervorheben. Wie könnte das Briefing für eine Werbeagentur aussehen? Was muss enthalten sein? Bitte bringe bereits Ideen für weitere Werbemaßnahmen mit hinein.
78 | Praxis: Kreativbriefing mit ChatGPT
ChatGPT generiert mir jetzt eine schöne Zusammenfassung nach den wichtigsten Punkten. Hier folgen nun Auszüge aus dem Text, die wir für die Ideengenerierung gebrauchen könnten. Ziel der Kampagne: Vermarktung von Fachbüchern (sowohl in Print als auch als E-Book) des Verlags, die Kreativen, Designerinnen und angehenden Designern dabei helfen, sich in einer sich schnell verändernden, von KI dominierten Welt zurechtzufinden. Zielgruppe Kreative und Designer*innen sämtlicher Altersgruppen J Studierende in kreativen Fachbereichen J Interessierte, die sich in der Designwelt weiterbilden wollen J
Kernbotschaft: »In einer sich ständig ändernden digitalen Welt sind Bücher dein Anker. Sie bieten tiefe Einsichten, anhaltende Werte und ein Fundament, um Neues zu schaffen.« Headline-Vorschläge J »Bücher: Deine Waffe im Zeitalter der KI.« J »In der Geschwindigkeit der Digitalisierung findest du im Buch die Tiefe.« J »Deine Kreativität braucht Wurzeln. Finde sie in Büchern.« USP (Alleinstellungsmerkmale) J Fachbücher zu wichtigen und zukunftsfähigen Themen J Verfügbarkeit als Print und E-Book J Speziell für Kreative konzipiert, um ihnen in dieser sich ständig ändernden Welt Orientierung zu bieten
Werbemaßnahmen und Aktionen J Influencer-Kooperation: Partner*innen aus der Kreativ- und Designszene könnten die Bücher rezensieren und ihre Gedanken auf sozialen Medien teilen. J Gewinnspiel: Verlosung signierter Ausgaben oder exklusive Workshops mit den Autorinnen und Autoren. J Leseproben: Kostenlose Kapitel der Bestseller als Teaser und zur Verbreitung über Social Media. J Webinar-Serie: Veranstaltung einer Webinar-Reihe mit den Autorinnen und Autoren, in der aktuelle Themen aus den Büchern besprochen werden. J Interaktive Website-Features: Einführung einer Funktion, bei der Benutzer ein paar Fragen beantworten und Buchempfehlungen basierend auf ihren Interessen erhalten. J Augmented Reality (AR) Poster: Eine interaktive Plakatkampagne, bei der Nutzer mit ihrem Smartphone AR-Elemente erkunden können, die mit dem Buchinhalt verbunden sind.
Damit gebe ich der KI jetzt zu verstehen, dass sie mir weitere Ideen zu ihren Vorschlägen liefern soll. Hier die Highlights: Wasserquelle in der Wüste: »In der Wüste der Überinformation sind Bücher deine erfrischende Oase.« Wurzeln und Flügel: »Bücher geben deiner Kreativität Wurzeln und deinen Ideen Flügel.« Navigation durch die Tiefsee: »Mit Büchern navigierst du sicher durch den Ozean der Informationen.« Die KI hat hier ganz von alleine bereits Assoziationen erschaffen, mit denen wir arbeiten könnten. Dabei werden hier drei Bildwelten eröffnet: die der Wüste, der Natur und der Tiefsee.
Das sind jetzt alles noch keine großen Würfe, aber ChatGPT hat das Wichtigste erfasst, erste Ideen geliefert, und wir haben eine Basis, mit der wir arbeiten können. Wir können ChatGPT vertiefende Fragen stellen und Ideen damit weiterentwickeln. Bis zu einer gewissen Zeit merkt sich die KI den Chatverlauf, ansonsten können wir uns auch den Input abspeichern und ihr später wieder zur Verfügung stellen.
Bringen wir die Beschreibung der Bildwelten in die bildgenerierenden KIs, können wir bereits schauen, wie die Visualisierung der Ideen aussehen könnte. Dabei beschränke ich mich auf die Ideen mit der Tiefsee und der Wüste. Die nächsten Seiten zeigen die Prompts zu den Ideen und ihre Ergebnisse. Es hat etwas Zeit gekostet, die Prompts anzupassen, um ungefähr das zu erhalten, was ich mir auf Basis der Ideen von ChatGPT vorgestellt habe. Diese Bilder können nun dazu dienen, die Ideen weiterzuentwickeln oder passende Headlines und Texte dafür zu finden. Sie sind keine fertigen Kampagnenvisuals.
prompt Headlines 2 und 3 haben Potenzial. Mir gefällt die Assoziation mit der Tiefe, aber auch den Wurzeln. Kannst du daraus noch weitere Ideen entwickeln? Denke um die Ecke, es darf phantasievoll und kreativ sein.
Solch ein schneller Einstieg kann helfen, eine Richtung zu finden und sich langsam in das Thema einzufinden. ChatGPT kann aber auch genutzt werden, um ein möglichst detailliertes Briefing zu erstellen.
Praxis: Kreativbriefing mit ChatGPT | 79
prompt A human walking in a grey desert of information. There is a spring in front of the human, made out of books, like a oasis with colors and beauty.
/imagine a bright and colorful sailing ship built from books, not from wood, with sails made out of book pages, navigating through the rough deep sea on the ocean, 3D-rendering, high detail --ar 16:9
In die Tiefe gehen Eine tiefere Auseinandersetzung mit dem Thema kann folgender Prompt bringen. prompt Schreibe mir ein detailliertes Kreativbriefing für eine Werbekampagne für einen Verlag, der Bücher für Kreative veröffentlicht. Hier soll der Vorteil von Büchern in dieser schnellen und sich ständig ändernden Welt vermittelt werden. Stelle mir dazu mindestens 15 Fragen zum Kunden und zur Kampagne, mit denen du das Briefing für eine Designagentur erstellen wirst.
Die Anzahl der Fragen kann natürlich variiert werden. Das kann helfen, das Projekt noch näher zu beschreiben, um damit noch bessere und passendere Ergebnisse zu erhalten, wenn es um die Ideengenerierung geht. Vielleicht ist auch mit dem Briefing, das folgt, klar, was zu tun ist, und der Prozess geht ohne KI weiter. Hier die Ergebnisse aus dem Prompt: Hintergrund Der Verlag spezialisiert sich auf die Veröffentlichung von Büchern für Kreative. In einer Zeit, in der Informationen in Sekundenschnelle über digitale Medien zugänglich sind, möchte der Verlag den Wert und die Relevanz von Büchern für Kreative hervorheben. Ziel der Kampagne Die Kampagne soll die Vorteile von Büchern in dieser schnellen und sich ständig ändernden Welt vermitteln. Sie soll zeigen, dass trotz der Digitalisierung Bücher eine wichtige Rolle in der kreativen Bildung und Inspiration spielen. Zielgruppe Kreative Personen, Designer, Künstler, Schriftsteller, Fotografen, Architekten und alle, die sich in kreativen Berufen oder Hobbys engagieren.
84 | Praxis: Kreativbriefing mit ChatGPT
Fragen zum Kunden und zur Kampagne 1. Welche spezifischen Bücher oder Buchgenres veröffentlicht der Verlag hauptsächlich? 2. Was unterscheidet den Verlag von anderen Verlagen, die ähnliche Bücher veröffentlichen? 3. Welche Altersgruppe und demografischen Merkmale zeichnen die Hauptzielgruppe des Verlags aus? 4. Welche Emotionen und Botschaften möchte der Verlag mit der Kampagne vermitteln? Aus solchen Fragen kann eine Briefingvorlage erstellt werden, die dabei hilft, sich tiefer in das Projekt einzuarbeiten. Expertenrolle einnehmen Wir können ChatGPT auch eine Expertenrolle zuweisen und der KI sagen, wie sie sich verhalten soll. prompt Du bist eine Kreativ- und Design agentur, spezialisiert auf neue und unerwartete Ideen für deine Kunden. Du entwickelst kreative Konzepte für Werbekampagnen und das Corporate Design der Kunden. Im Folgenden werde ich dir ein Briefing für einen Auftrag geben, den du mit weiteren Fragen an mich zu dem Projekt ergänzt und dann daraus Ideen für den Kunden entwickelst.
Die KI bringt hier schon erste Ideen, aber stellt auch noch spannende Fragen, wie: 1. Gibt es spezifische Bücher oder Autoren, die in der Kampagne hervorgehoben werden sollen? 2. Welche Erfahrungen oder Geschichten von bisherigen Lesern könnten in die Kampagne integriert werden? 3. Welche technischen Möglichkeiten bietet die Webseite des Verlags für interaktive Features?
4. Gibt es bereits Daten oder Feedback, das zeigt, wie Kreative von den Büchern des Verlags profitiert haben? 5. Welche Social-Media-Plattformen nutzt der Verlag am aktivsten?
Kernbotschaften entwickeln und visualisieren (lassen) Im Laufe des Dialogs können Sie sich von ChatGPT nun Kernbotschaften der Kampagne entwickeln lassen. Hier sehen Sie ein paar Ergebnisse: 1. Bücher als Anker in einer sich schnell verändernden Welt. 2. Fachwissen für die Zukunft – heute zugänglich. 3. Print oder E-Book: Wähle deinen Weg zur Kreativität. Mit dem Update auf die Version 4 und der Ergänzung von DALL-E 3 direkt in ChatGPT können Sie sich nun auch direkt Visualisierungen zu den Kernbotschaften entwickeln lassen. Ich habe die erste Botschaft ausgewählt, weil mir die Analogie eines Ankers sehr gut gefallen hat. Zwei dieser Bilder möchte ich Ihnen auf den folgenden Seiten zeigen, inklusive Prompt, den ChatGPT gleich mitliefert. Foto eines alten Bibliotheksraums Ein alter, holzgetäfelter Bibliotheksraum wird gezeigt. Dunkle, hohe Bücherregale sind mit antiken Büchern gefüllt. Eine Frau mittleren Alters mit asiatischer Abstammung sitzt in einem bequemen Sessel und liest konzentriert ein Buch. Um sie herum wirbeln abstrakte Formen und Farben, die das Chaos und die Schnelligkeit der modernen Welt darstellen. Das Licht aus dem Buch scheint hell und strahlt Ruhe aus,
wodurch die umgebenden turbulenten Formen gedämpft werden. Illustration eines Leuchtturms aus Büchern Ein großer Leuchtturm, gebaut aus gestapelten Büchern unterschiedlicher Größen und Farben, steht fest auf einem Felsen inmitten eines stürmischen Meeres. Die Wellen repräsentieren die Veränderungen und Unsicherheiten der Welt. Ein junger Mann afrikanischer Abstammung steht am Fuße des Leuchtturms und blickt hinauf, während er ein Buch in der Hand hält. Der Lichtstrahl des Leuchtturms weist ihm den Weg durch die Dunkelheit. Die Prompts habe ich im Laufe des Chats noch verändert. Änderungswünsche können via Chat einfach und schnell eingebracht werden, ohne immer wieder von vorne zu beginnen. Die Integration von DALL-E 3 innerhalb von ChatGPT ist zum Zeitpunkt des Verfassens dieses Buchs noch nicht perfekt ausgereift. Aber die Ergebnisse sind vielversprechend, und das Prompten via Chat ist sehr angenehm und benötigt kaum ein spezielles Vokabular, um das gewünschte Ergebnis zu erhalten. Sie können natürlich die Prompts von Chat GPT nutzen und sie auf andere KI-Modelle anpassen, die gelieferten Ideen als Inspiration verwenden und selbst an die Umsetzung gehen oder die generierten Bilder im Abstimmungsprozess nutzen. Am Ende steht immer die Entscheidung des Nutzers oder der Nutzerin dieser Technologie, wie die Ergebnisse verwendet werden sollen. Die Ergebnisse mögen auf den ersten Blick erstaunlich sein, aber ob diese nun auch zielgruppengerecht sind, muss am Ende der Mensch selbst entscheiden.
Praxis: Kreativbriefing mit ChatGPT | 85
prompt Ein alter Bibliotheksraum, in dem eine Frau europäischer Abstammung ein Buch liest, während sich die Welt um sie herum in schnellem Tempo verändert.
prompt Eine Illustration eines Leuchtturms, der aus Büchern besteht, mit einem jungen Mann afrikanischer Abstammung, der hinaufblickt.
Beispiele für Prompts mit Kreativitätstechniken Experimentieren Sie mit Hilfe dieser Prompts, oder überlegen Sie sich eigene Fragen. Assoziationen: Denke an Wörter, die du mit einem traditionellen Buch assoziierst, und verbinde sie mit der modernen, schnelllebigen digitalen Welt. Erstelle eine Headline für eine Werbekampagne für den Verlag. Zufallsprinzip: Integriere das Wort »Galaxie« in eine Werbebotschaft, die den Vorteil von Büchern in unserer heutigen Welt betont. Provokationstechnik: Wenn Bücher das einzige Mittel wären, um Wissen zu erhalten, wie würdest du deren Bedeutung in einer Werbekampagne darstellen? 6 Denkhüte: Unter dem »weißen Hut« (faktenbasiert): Wie würdest du die Vorteile von E-Books und Printbüchern nebeneinander darstellen? Unter dem »schwarzen Hut« (kritisch): Welche Bedenken könnten Kreative bezüglich KI haben und wie könnten Bücher diese adressieren? Kopfstandmethode: Wenn du eine Kampagne gegen digitales Lernen erstellen würdest, welche Argumente würdest du hervorheben? Kehre diese Argumente dann um, um die Vorteile von Büchern in der digitalen Welt zu betonen. Die Alphabettechnik: Erstelle eine Werbebotschaft, die mit den Buchstaben »A–Z« beginnt und die Vorteile von Printbüchern und E-Books hervorhebt. Analogietechnik und Querdenken: Wie würdest du Bücher als »Leuchttürme« in der »stürmischen See« der digitalen Informationen darstellen? Advocatus Diaboli: Welche Kritik könnte jemand an der Nutzung von Büchern in einer digitalen Ära äußern? Erstelle eine Antwort darauf in Form einer Werbebotschaft. Walt-Disney-Methode: Als »Träumer«: Wie sieht die ideale Werbekampagne aus? Als »Realist«: Wie kann diese Vision praktisch umgesetzt werden? Als »Kritiker«: Welche möglichen Schwachstellen gibt es in dieser Kampagne? Was-wäre-wenn-Technik: Was wäre, wenn Bücher die einzige Quelle der Weisheit wären? Erstelle eine Werbebotschaft, die diese Vorstellung nutzt. Perspektivwechsel: Wie würdest du die Bedeutung von Büchern aus der Per spektive eines KI-Entwicklers darstellen, der die Wichtigkeit von traditionellem Wissen schätzt?
88 | Kapitel 2: Künstliche Intelligenz und Kreativität
KI in der Ideenfindung: weitere Techniken Sie haben nun einige Ideen kennengelernt, wie KI in der Ideenfindung genutzt werden kann. Natürlich sind auch hier die Möglichkeiten unbegrenzt, daher möchte ich noch ein paar selbst erprobte Prompts teilen, die Sie wiederum nach Belieben anwenden und anpassen können. Das Internet ist voll von Tipps für Prompts. Hier gilt es auszuprobieren, was für Sie am besten funktioniert.
Tipp für bessere Ergebnisse Sie können auch Kampagnenbriefing, Persona und Motivideen vorher im Chat posten und dann verschiedene Techniken wie den Perspektivwechsel anwenden. Die KI merkt sich bis zu einem gewissen Grad, was im Laufe eines Chatverlaufs besprochen wird. Je mehr Informationen Sie vorher liefern, desto besser werden die Ergebnisse.
Perspektivwechsel »Betrachte XY aus der Sicht von …«. Lassen Sie ChatGPT und Co. einen Text, eine Idee oder ein Konzept aus der Sicht einer ganz bestimmten Person analysieren, um einen ganz neuen, aber auch durch die Person gesteuerten Blick auf die Dinge zu erhalten. Das funktioniert nicht nur mit sehr bekannten Personen. Sie können natürlich eine Person detailliert beschreiben – wie z. B. eine Persona aus der Zielgruppe oder einen Experten – und ChatGPT dann durch deren Augen blicken lassen. Zusätzliche Informationen, welche Aspekte bei der Betrachtung wichtig sind, können die Ergebnisse noch verbessern. prompt Betrachte die Kampagnen-Headline »Bücher als Anker in einer sich schnell verändernden Welt« und die Motividee [hier Idee einfügen] aus der Sicht von [hier Persona einfügen], und prüfe diese auf ihre Originalität sowie den möglichen Eindruck, den die Kampagne auf die Person haben kann.
Weitere Ideen für Aspekte zur Betrachtung sind: Risiken, Machbarkeit, Kosteneinschätzung, Emotionen, Ethik, Bildung, Zeitplan, Sozialverhalten, Zugänglichkeit, Zukunftsplanung, Kultur, Gesundheit, Technologie, Recht, Umwelt, Motivation, Anpassungsfähigkeit, Sicherheit, Finanzen, Intuition, Kreativität, Kommunikation, Mobilität, Tradition, Innovation, Identität, Vertrauen usw.
Perspektivwechsel mit character.ai Sie möchten mit Albert Einstein über Ihr Kampagnenkonzept plaudern, während Ihnen Elon Musk Feedback zu Ihrem Businessmodell gibt? Mit beta.character.ai ist dies nun möglich. Alles KI und fiktiv, aber sehr unterhaltsam.
KI als Ideenmaschine | 89
Stile imitieren und sich inspirieren lassen Manchmal gehört es zur Idee oder zum Konzept, einen bekannten Stil nachzuahmen. Dies können bestimmte Kunstepochen sein, aber auch Stile einzelner Künstlerinnen und Künstler, Autorinnen und Autoren, Designerinnen und Designer, Regisseurinnen und Regisseure … Für die Kapiteleinstiegsseiten habe ich dies mit Filmlooks gemacht, um zu zeigen, wie ein und derselbe Prompt mit der Änderung eines einzigen Promptbausteins (dem Stil) völlig neue Ergebnisse hervorbringt. Hierbei ist darauf zu achten, sich solche Stile nicht zu eigen zu machen und nicht zu vergessen, die Künstler und Künstlerinnen zu erwähnen. Wenn dies allerdings nur zur Inspiration dient und Sie daraus etwas völlig Neues kreieren, kann diese Art von Imitation helfen, auf etwas Neues zu kommen. Nichts anderes passiert tagtäglich in allen Bereichen der Menschheit, nicht nur in der Kunst und im Design. prompt Schreibe folgenden Text im Stil von Yoda aus Star Wars um: …
So einfach das Imitieren mit KI ist, achten Sie auf ethische und rechtliche Aspekte – hier gelten auch Markenrechte. Als Spielerei und zur Ideenfindung kann es helfen, für kommerzielle Zwecke könnte dies zu rechtlichen Konsequenzen führen!
Ideen kombinieren Eine wunderbare Möglichkeit, auf neue Ideen zu kommen, ist es, völlig fremde Dinge miteinander zu verbinden. Im Beispiel waren es Bücher und Anker, die eine ganz neue Bildwelt eröffnen. Sie können sich vorher Zufallswörter generieren lassen und diese dann mit dem eigenen Thema verknüpfen (oder verknüpfen lassen).
KI hilft, Ideen besser auszuformulieren Ideen sind flüchtig, existieren erst einmal als Bilder oder Worte im Kopf. Kommt es dann zur Umsetzung, stellt sich schnell heraus, ob die Idee funktioniert und auch bei der Zielgruppe ankommt. Leider geht dann bereits viel Zeit und Arbeit dadurch verloren. Auch beim Prompting ist dies ein Prozess, der Zeit kosten kann. Die KI nimmt manches zu wörtlich, dichtet Dinge hinzu oder lässt wichtige Details weg. Es ist manchmal eine schnelle Sache – und dann wieder ein längerer Prozess mit Trial and Error. Um mit KI eine Idee zu visualisieren, müssen Sie beschreiben können, was gerade in Ihrem Kopf vorgeht. Egal in welcher Phase des Prozesses Sie KI nutzen oder planen zu nutzen: KI zwingt Sie förmlich dazu, die Ideen bis ins Detail auszuformulieren. Das ist eine großartige Übung, die im Kreativalltag leider oft zu kurz kommt. Wenn Sie genau beschreiben, was Sie möchten, erhalten Sie mit großer Wahrscheinlichkeit auch das, was Sie von der KI erstellen lassen wollen. Das ist zwar keine Garantie, aber selbst wenn
90 | Kapitel 2: Künstliche Intelligenz und Kreativität
das Ergebnis nicht nutzbar sein sollte, haben Sie damit Ihr eigenes Briefing perfektioniert. Sie gehen mit Gewinn aus diesem Prozess heraus. Diese Kompetenz wird Ihnen auch außerhalb der KI helfen, wenn Sie mit anderen zusammenarbeiten oder mit Kunden oder Kundinnen Briefings entwickeln sowie an eigenen Konzepten arbeiten. Sogar das Präsentieren fällt leichter. Storytelling Ein sehr wichtiges Instrument im Designprozess kann das Storytelling sein – das Erzählen von Geschichten. Mit einem zielgruppengerechten Narrativ ermöglichen Sie den Betrachtern eine tiefere (sogar emotionale) Verbindung zu Produkten, Marken, Unternehmen, Personen oder Dienstleistungen. Im Bran- Storytelling ermögding ist das Storytelling eine Technik mit unschätzbarem Wert – doch licht eine tiefere Binist diese Methode nicht ganz ohne Aufwand zu betreiben. Um ein au- dung zu Produkten, thentisches und ehrliches Storytelling für Ihre Kunden und Kundinnen Marken und Unterzu kreieren, braucht es einiges an Zusammenarbeit und Vorarbeit, um nehmen. zu einer positiven Zielgruppenerfahrung zu kommen. Hier einige Punkte, die Sie für das Erstellen einer Markengeschichte nutzen können (je nach Umfang können die Punkte variieren): J J J J J J J J
Ziel des Storytellings (z. B. Marke stärken, USP hervorheben, Employer Branding anwenden) Marke und ihre Werte verstehen (z. B. USP, Mission und Vision, Kernwerte) Zielgruppe verstehen (z. B. Interessen, Bedürfnisse, Werte, Konsumverhalten) Kommunikationskanäle wählen (z. B. Webseite, Social Media, Broschüre, Anzeigen) Informationen sammeln: Beobachten, mit verschiedenen Mitarbeitern und Mitarbeiterinnen sprechen, mit Kunden und Kundinnen sprechen Erzählstruktur entwickeln (z. B. chronologisch, themenbasiert) Inhalte kreieren (emotional ansprechende Texte, Bilder, Videos) Adaption in verschiedene Kommunikationskanäle
Mit ChatGPT können Sie solch ein Storytelling umsetzen. Sammeln Sie alle wichtigen Informationen, stellen Sie sie der KI zur Verfügung, und geben Sie Anweisungen, wie die KI fortfahren soll. Gehen Sie am besten Punkt für Punkt durch, damit nichts verloren geht. Sie können außerdem ein vorhandenes Storytelling eingeben und prüfen lassen, ob Sie es noch verbessern könnten. Vergessen Sie hier nicht die Angabe der Zielgruppe und weitere Hintergrundinformationen.
KI als Ideenmaschine | 91
PRAXIS Storytelling mit ChatGPT Aufbau des Storytellings ChatGPT (besonders ab Version 4.0) ist ideal, um solche kreativen Texte zu schreiben. Wir beginnen den Chat mit der groben Aufgabenstellung und werden uns dann nach und nach zu den Zielen voranarbeiten. Hier ein Beispiel für den Beginn des Chats: prompt Ich möchte ein Konzept für ein Storytelling einer nachhaltigen Kaffeerösterei erstellen. Anbei sind die Zielgruppenanalyse wie auch die Werte des Unternehmens und die Unternehmensgeschichte. Ziel ist es, die Nachhaltigkeit besonders hervorzuheben. Dazu möchte ich einen Text für die Webseite erstellen und mit ansprechenden Bildern unterstützen sowie eine Social-Media-Kampagne starten. Stelle mir Fragen, falls du noch weitere Informationen dafür brauchst. Wir beginnen mit dem Webseitentext.
Den Text sollten Sie noch auf die gewünschte Länge begrenzen und die Form vorgeben. Wie Sie solche Textprompts am besten erstellen, erfahren Sie in Kapitel 4 zum Prompting. Da dieses Projekt hier fiktiv ist, habe ich natürlich keine weiteren Informationen. Ich erhalte trotzdem ein Konzept, mit dem sich arbeiten lässt. Weitere Anweisungen geben Leiten Sie ChatGPT durch den Prozess, indem Sie weitere Anweisungen geben. Vermerken Sie ebenfalls, was machbar ist, und grenzen Sie die Möglichkeiten ein – z. B. schlägt ChatGPT vor, Interviews mit den Kaffeebauern zu führen oder Bilder und Videos von den Plantagen zu machen, dies ist jedoch eventuell nicht im Budget, und daher müssten die Mittel vor Ort genutzt
92 | Praxis: Storytelling mit ChatGPT
werden. Lassen Sie sich Konzepte erstellen, wie Sie die Nachhaltigkeit im Unternehmen in eine emotionale Geschichte verwandeln können, und lassen Sie sich von der KI inspirieren. Kampagnenerstellung Wenn die Geschichte passt und Sie bereits einige Inhalte und Texte haben, dann können Sie auch die Kampagne mit ChatGPT planen und erstellen, z. B. für die Social-Media-Kanäle des Unternehmens. prompt Erstelle aus angehängten Texten und Informationen ein Konzept für eine SocialMedia-Kampagne für mehrere Posts, die mit Hilfe von Bildern, Texten und Videos die Geschichte erzählen. Als Kanäle nutzen wir Instagram und TikTok. Erstelle jeweils einen tabellarischen Plan mit allen wichtigen Details, Texten, Bildern und Hashtags. Die Kampagne soll vier Wochen lang laufen.
Sollten die Inhalte nicht so sein, wie Sie es wünschen, geben Sie der KI ein Beispiel oder eine Vorlage, an die sie sich halten soll. Sie müssen sich nicht an die KI anpassen, sondern können mit genauen Instruktionen Ihre Informationen in der Form erhalten, in der Sie sie brauchen. Die KI eignet sich ebenfalls, um vorhandene Storys auf verschiedene Stile anzupassen, um zu testen, welche bei der Zielgruppe besser ankommen. Darf es emotionaler sein? Oder kreativ und lustig? ChatGPT kann dabei eine sehr gute Hilfe sein.
Design Thinking Eine weitere Methode im Designprozess ist das Design Thinking, das ebenfalls recht aufwändig ist und mit Hilfe von KI effizienter durchgeführt werden könnte. Ziel von Design Thinking ist es, schnell einen Prototyp zu entwickeln, um zu prüfen, ob und wie dieser bei der Zielgruppe ankommt. Der Prozess des Design Thinking kann grob in folgende Phasen unterteilt werden: J
J J J J
Verstehen (Empathize): In dieser Phase versuchen Designer*innen, die Bedürfnisse und Herausforderungen der Benutzer zu verstehen, indem sie Interviews durchführen, Beobachtungen anstellen und in die Schuhe der Benutzer schlüpfen. Definieren (Define): Auf Grundlage der gesammelten Informationen wird das eigentliche Problem oder die Herausforderung klar definiert. Ideenfindung (Ideate): In dieser kreativen Phase werden möglichst viele Lösungsideen generiert, ohne sie zunächst zu bewerten. Prototypen (Prototype): Basierend auf den generierten Ideen werden einfache Prototypen erstellt, die die potenziellen Lösungen darstellen. Testen (Test): Die Prototypen werden mit echten Benutzern getestet, um Feedback zu erhalten und zu verstehen, was funktioniert und was nicht.
In der Praxis kann der Design-Thinking-Ansatz zu besseren und nutzerfreundlicheren Designs führen, da er die Zielgruppe in den Mittelpunkt des Designprozesses stellt. Es kann jedoch auch zeitaufwändiger sein als traditionelle Designansätze, weil viele Iterationen und Tests erforderlich sind. Aber mit Hilfe von KI lässt sich dieser Prozess vereinfachen und beschleunigen. Schneller ist jedoch nicht immer besser, das Tempo bestimmen Sie immer selbst. Um mit ChatGPT in den Prozess zu starten, gebe ich in einem neuen Chat wieder die Informationen über die Verlagskampagne, die ich mir vorher erarbeitet habe. Auch hier gilt: Je mehr Informationen, desto besser. Dann bitte ich die KI, mich Schritt für Schritt durch den Prozess zu führen. prompt Führe mich am Beispiel einer Werbekampagne für einen Verlag, der Bücher für Kreative veröffentlicht, durch den Prozess des Design Thinking. Du übernimmst die Rolle des Moderators, und wir erarbeiten Schritt für Schritt Lösungen für die verschiedenen Phasen.
ChatGPT beginnt mit Fragen zu den jeweiligen Prozessen und schlägt auch schon Aktionen vor. Sie können die einzelnen Schritte immer wieder von Neuem beginnen oder im Chat weitere Ideen hinzufügen, bis Sie zufrieden mit dem Ergebnis sind. Lassen Sie sich von den Vorschlägen inspirieren, oder entwickeln Sie ganz eigene neue Punkte für den Prozess. ChatGPT soll hier als Hilfe dienen und die Moderator-Funktion übernehmen. Das Ganze kann alleine oder im Team bearbeitet werden.
KI als Ideenmaschine | 93
PRAXIS Design Thinking mit ChatGPT prompt Beginne mit Phase 1 des DesignThinking-Prozesses: Bitte moderiere detailliert und zähle auf, welche Schritte zu tun sind.
Phase 1: Verstehen (Empathize) Ziel: Ein tieferes Verständnis für die Gefühle, Bedürfnisse und Herausforderungen der Zielgruppe entwickeln. Schritt 1: Zielgruppenanalyse Aktion: Legen Sie klar fest, wer genau Ihre Zielgruppe ist. In diesem Fall sind es Kreative und solche, die es werden möchten. Folgende Fragen könnten dabei gestellt werden: J J J J
Welches Alter haben sie im Durchschnitt? Welche sozialen Medien nutzen sie häufig? Welche Fachzeitschriften lesen sie? Welche Herausforderungen erleben sie in ihrer Arbeit und Weiterbildung?
Schritt 2: Tiefeninterviews Aktion: Wählen Sie 5 bis 10 Personen aus der Zielgruppe aus, und führen Sie persönliche oder virtuelle Tiefeninterviews durch. Fragen können hierbei beispielsweise sein: J J J J
Wie empfinden Sie die Rolle von Büchern in der heutigen digitalen Welt? Was sind Ihre Hauptbedenken in Bezug auf KI im Design? Welche Art von Inhalten suchen Sie in Fachbüchern? Bevorzugen Sie Printbücher oder E-Books? Warum?
94 | Praxis: Design Thinking mit ChatGPT
Schritt 3: Online-Umfragen Aktion: Erstellen Sie eine kurze Online-Umfrage mit 5 bis 10 Fragen, und verbreiten Sie sie in Design-Communitys und sozialen Medien. Ziel: Sammeln Sie quantitative Daten über die Präferenzen und Herausforderungen der Zielgruppe. Schritt 4: Beobachtungen Aktion: Beobachten Sie, wie Kreative in Buchläden oder auf Design-Events interagieren. Wie wählen sie Bücher aus? Welche Themen ziehen sie an? Ziel: Verhaltensmuster und ungesagte Bedürfnisse identifizieren. Schritt 5: Datenanalyse Aktion: Sammeln Sie alle Daten aus den Interviews, Umfragen und Beobachtungen, und analysieren Sie sie, um gemeinsame Themen und Erkenntnisse zu identifizieren. Ziel: Erkennen von Mustern und tiefgreifenden Einsichten in die Bedürfnisse der Zielgruppe. Nachdem Sie diese Schritte durchgeführt haben, sollten Sie ein klares Bild davon haben, was Ihre Zielgruppe möchte, was sie beunruhigt und wie Ihre Bücher ihnen helfen können.
Bild generiert mit ChatGPT und DALL-E 3
Im Praxisbeispiel zum Design Thinking haben Sie gesehen, was herauskommt, wenn Sie ChatGPT nach vorheriger Eingabe von Informationen und dem obigen Prompt darum bitten, mit der ersten Phase des Design Thinking zu starten und detailliert darauf einzugehen, was die konkreten Schritte sind. Bewerten Sie, ob die Schritte für Sie sinnvoll sind, und führen Sie diese aus. Geben Sie ChatGPT die Ergebnisse, und fahren Sie dann mit den nächsten Phasen fort.
Mit KI könnte der Designprozess eine ganz neue Erfahrung werden. Probieren Sie es aus!
Eigene Ideen und Methoden mit ChatGPT umsetzen Sie haben andere Kreativmethoden, die Sie anwenden möchten? Kein Problem, denn Sie können praktisch alles mit Hilfe von ChatGPT umsetzen. Mit diesem Prompt bin ich an die Beispiele aus diesem Buch und an eigene Anwendungen herangegangen: prompt Kennst du [hier Methode einfügen]? Erkläre es mir und nenne die Schritte, wie man dabei vorgehen kann.
ChatGPT wird die Methode erklären, und Sie können prüfen, ob KI wirklich weiß, was Sie gleich vorhaben. Sie können der KI ergänzende Informationen liefern und sie damit korrigieren. Beginnen Sie dann mit den einzelnen Schritten, die ChatGPT Ihnen nennt. Lassen Sie sich für Ihr Thema Ideen vorschlagen, tragen Sie eigene Ideen ein, und gehen Sie Schritt für Schritt durch den Prozess. Auf diese Art und Weise könnten Sie nahezu jede Kreativtechnik und jede Designmethode ausprobieren. Lassen Sie sich Vorlagen für Arbeitsblätter und Tabellen für Gruppenmethoden oder Kundenworkshops erstellen, die Sie dann nutzen können. Lassen Sie ChatGPT den organisatorischen Teil erledigen, damit Sie mehr Zeit für den kreativen Part haben.
KI als Ideenmaschine | 95
Ist KI nun kreativ? Um die Frage vom Beginn des Kapitels aufzugreifen, kann man Folgendes zusammenfassen: Was viele der Kreativforschenden gemeinsam haben, ist die Ansicht, dass Kreativität bedeutet, etwas Neuartiges, Unerwartetes zu schaffen, das wiederum sinnvoll oder hilfreich ist. Der Kreativprozess ist nicht ganz klar definierbar, aber es gibt Ansätze und Ideen, die auf Mensch und Maschinen gleichermaßen zutreffen können. Ich als Mensch bin kreativ, wenn ich es schaffe, Bekanntes mit Neuem zu verbinden und daraus etwas Nützliches zu erschaffen. Ob ich dazu KI nutze, um diesen Weg zu gehen, oder die Ideen damit letztendlich umsetze, ist weniger relevant. Das Ergebnis zählt. Nicht alles, was die KI-Tools generieren, zeugt von KreativiKreativität ist erlernbar, tät. Und das gilt auch für uns Menschen.
und unsere Hingabe und Freude am Kreativsein bringt uns dabei voran.
Kreativität ist erlernbar, und unsere Hingabe und Freude am Kreativsein bringt uns dabei voran. KI lernt das, was wir ihr vorgeben. Ohne eigene Motivation. So menschlich sie auch scheint, sie imitiert nur das, was von ihr erwartet wird. Sie empfindet nichts dabei, wenn sie ein Bild, einen Text oder ein Musikstück generiert. Trotzdem können wir Menschen etwas empfinden, wenn wir die generierten Werke betrachten oder erleben. Zum ersten Mal in der Menschheitsgeschichte erreichen KI-Systeme in Kreativtests mit dem Menschen vergleichbare Ergebnisse. Ob KI nun kreativ ist oder nicht, liegt trotzdem im Auge des Betrachters, einer qualifizierten Fachjury oder hängt davon ab, welche Theorie man zu Rate zieht, um Kreativität zu definieren.
»Kreative KI« ist ein Werkzeug, das unserer menschlichen Kreativität helfen kann, neue Wege zu entdecken und eigene Barrieren zu überwinden. Aber sie ist auch Hilfsmittel, um Neuartiges zu schaffen, dem wir wiederum einen Sinn geben können. KI basiert auf menschlicher Kreativität, daher könnte man davon ausgehen, dass es sich wie bei der Intelligenz verhält: KI kann kreative Handlungsmuster imitieren und wirkt damit kreativ, obwohl sie in diesem Moment weder eigenmotiviert handelt noch das in Frage oder in einen eigenen Kontext stellt, was sie dabei generiert. Außer man sagt ihr, dass sie dies tun soll. Für mich ist KI eine Kreativmaschine, die, wenn ich die richtigen Infos eingebe und die richtigen Fragen stelle, eine ungemeine Hilfe im Arbeitsalltag ist. Ist man einmal über die Phase hinaus, in der alles faszinierend ist, was die KI generiert, kann man die Ergebnisse nüchtern betrachtet als Ausgangsmaterial für eigene Kreationen sehen. Sie kann als Partner im Kreativprozess eine Rolle spielen und durch Techniken und Methoden führen, die sonst viel Zeit in Anspruch nehmen.
96 | Kapitel 2: Künstliche Intelligenz und Kreativität
prompt [Bilder vom Anfang dieses Kapitels] + Kannst du ein neues Bild im Stil der beiden Bilder machen? Der Mann aus dem einen Bild soll mit der Maschine aus dem zweiten Bild arbeiten.
/imagine a scene from a film directed by Tim Burton, showing a scene from the future of a graphic designer working with futuristic tools and artificial intelligence, photorealistic, high detail --ar 3:2
KAPITEL 3
KI im Designworkflow einsetzen
KAPITEL 3
KI im Designworkflow einsetzen Eines steht nun fest: KI ist nicht nur ein Werkzeug zur Automatisierung. Sie ermöglicht es uns Designern und Designerinnen, unser kreatives Potenzial nahezu unbegrenzt zu entfalten und zu erweitern. Denken Sie an die schier unendlichen Möglichkeiten, Layouts zu generieren oder einzigartige Bildlooks zu kreieren, die einst Stunden der manuellen Arbeit erforderten. Die Fähigkeit von KI, komplexe Datenmengen zu analysieren, ermöglicht es uns, tiefergehende Erkenntnisse und Trends zu finden, die den Designprozess bereichern können. Und noch spannender ist die Symbiose zwischen Mensch und Maschine. Mit KI arbeiten ist nicht nur eine Einbahnstraße der Befehlseingabe, sondern ein Dialog, bei dem KI-basierte Tools den Kreativen inspirierende Vorschläge liefern können oder dabei helfen, ihre Vision zu verwirklichen. In diesem Kapitel wollen wir uns der Frage widmen, wie KI-Tools uns in unserem Kreativalltag unterstützen können. Danach sollten Sie in der Lage sein, eigenständig Tools zu finden und diese gezielt einzusetzen.
Ansätze zur Integration von KI Die Anzahl an verfügbaren Tools und Apps mit KI steigt fast täglich. Das bedeutet nicht, dass alle komplett neue Errungenschaften sind, sondern die meisten Apps und Tools basieren auf den Big Playern. Daher ist es nicht so wichtig, welche App oder welches Programm das vermeintlich beste ist, sondern eher, welches den eigenen Vorlieben und dem Einsatzzweck dient. Es bringt aus Erfahrung rein gar nichts, sich jeden Tag ein neues Tool auszusuchen und wieder von vorne zu beginnen. Wer ganz neu ist, kann sich an die großen Anbieter halten (siehe Kapitel 5) und damit beginnen, weil es dafür am meisten Ressourcen und Beispiele gibt sowie auch bereits gut getestete und anwenderfreundliche Benutzeroberflächen. Aber auch die Qualität und Quantität der Trainingsdaten und das aufwändige Training der Modelle der Marktführer führen selbst bei unerfahrenen Usern zu besseren Ergebnissen. Die besten Voraussetzungen für den Einstieg sind die Affinität zu neuen Technologien sowie eine niedrige Erwartungshaltung, was die Ergebnisse der KI-Tools angeht.
100 | Kapitel 3: KI im Designworkflow einsetzen
Um Ihnen den Einstieg zu erleichtern, möchte ich vorab zwei Ansätze zur Implementierung von KI im Kreativworkflow aufzeigen, bevor wir uns in den nächsten Kapiteln mit der Praxis beschäftigen. Denn nur ein sinnvoller Einsatz von KI bringt auch die gewünschte Arbeitserleichterung und -optimierung mit Nur ein sinnvoller Einsich: Nur weil KI sehr vielseitig ist, bringt es nichts, einfach mit KI zu satz von KI bringt die arbeiten, weil es nun möglich ist!
gewünschte Arbeitserleichterung mit sich
Jede und jeder kann mit KI »einfach so« etwas machen. Wenn es um einen professionellen Rahmen geht, kann die KI kein Fachwissen ersetzen, höchstens ergänzen. Und je mehr Sie sich mit Ihren Prozessen auseinandersetzen, desto eher finden Sie die perfekten Tools für die Unterstützung dieser Prozesse.
Workflows sind wie Algorithmen
Bild generiert mit ChatGPT und DALL-E 3
Bei unserer Arbeit gehen wir regelmäßig verschiedene Phasen eines Workflows durch. Ein Workflow ist eine definierte Abfolge von Aufgaben und Prozessen, die ausgeführt werden, um ein bestimmtes Ziel oder Ergebnis zu erreichen. Ähnlich einem Algorithmus.
Erinnern Sie sich an den Vergleich zwischen KI und dem Hammer? Auch hier passt diese Metapher sehr gut: Nur weil wir den Hammer in der Werkzeugkiste haben, können oder sollten wir diesen nicht für alles benutzen. Stellen Sie sich vor, Leonardo da Vinci hätte versucht, die Mona Lisa mit einem Hammer zu malen.
Ansätze zur Integration von KI | 101
Bei den folgenden zwei Ansätzen – einer prozesszentriert, einer problemorientiert – können Sie die jeweiligen Schritte nach Belieben auf Ihre Bedürfnisse anpassen, kombinieren, ergänzen oder streichen, denn die Prozesse sind bei jedem Projekt oder Unternehmen unterschiedlich, und ein Kreativprozess kann ganz anders aussehen als ein Strategieprozess. 1. Prozesszentriertes Arbeiten mit KI: Das prozesszentrierte Arbeiten mit KI konzentriert sich auf die Integration von KI in den täglichen Arbeitsablauf, insbesondere bei routinemäßigen Aufgaben. Ein 10-Schritte-Plan dient dazu, KI-Tools sinnvoll in den Workflow einzuführen, wobei Selbstständige wie auch Unternehmen davon profitieren können, indem sie entscheiden, welche Tools effektiv und wertvoll sind. Das Ziel ist es, den Workflow zu optimieren und sich oder die Mitarbeitenden nicht durch eine Überflutung an Tools zu überfordern. Diesen Ansatz können Sie auf jeden Workflow anwenden. Ob nun ihre tägliche Arbeitsroutine oder projektspezifische Workflows optimiert werden sollen – KI kann überall da eingesetzt werden, wo Sie es möchten. In diesem Kapitel werden wir uns verschiedene Arbeitsbereiche anschauen, und ich stelle Ihnen Möglichkeiten vor, wo und wie Sie KI dort einsetzen können. 2. Problemorientierter Einsatz von KI: Beim problemorientierten Einsatz von KI wird der Fokus auf spezifische Problemstellungen gelegt. Anwender*innen, die bereits mit verschiedenen KI-Modellen vertraut sind, können durch diesen Ansatz spezifische Tools basierend auf ihren Erfahrungen und der jeweiligen Problemstellung auswählen. Es ist essenziell, die Problemstellung zu identifizieren, das passende Tool auszuwählen und gegebenenfalls durch andere zu ersetzen, wenn die Ergebnisse nicht zufriedenstellend sind. KI wird als Erweiterung der eigenen Fähigkeiten eingesetzt. Am häufigsten wird wohl der problemorientierte Einsatz von KI vorkommen, denn alleine die Masse an verfügbaren Tools und Programmen führt letztendlich dazu, dass wir uns nicht nur einer, sondern mehrerer dieser Möglichkeiten bedienen werden. Sobald wir im Alltag auf ein Problem stoßen, suchen wir nach einer Lösung. Das bedeutet meist auch ein Trial and Error, bis man die passende Lösung gefunden hat. Mit der Zeit finden Sie heraus, welche KI-Tools für welche Probleme am besten geeignet sind und wie Sie sie gezielt einsetzen können. Beginnen wir mit dem ersten Ansatz und wie Sie diesen einsetzen können.
Ansatz 1: Prozesszentriertes Arbeiten mit KI In diesem Ansatz widmen wir uns dem individuellen Kreativworkflow und wie KI dort gezielt und nachhaltig eingesetzt werden kann. Besonders bei wiederkehrenden und reproduzierbaren Aufgaben ist der Einsatz von KI- und Automatisierungstools sinnvoll.
102 | Kapitel 3: KI im Designworkflow einsetzen
Bild generiert mit ChatGPT & DALL-E 3, Text selbst eingefügt
In der Abbildung sehen Sie eine sehr grobe Darstellung der Phasen eines typischen Designworkflows. Wir reduzieren ihn auf die wichtigsten Punkte Recherche, Ideenfindung, Umsetzung und Freigabe. Die Phasen sind je nach Person, Kunde, Projekt und Briefing unterschiedlich ausgeprägt und können sich auch während des Prozesses wiederholen.
Recherche
Sammeln von Informationen, erste Inspirationen
Ideen
Filterung der Ergebnisse, Entwickeln neuer Ideen
Umsetzung
Generieren, Schreiben, Zeichnen usw.
Freigabe
Vektorisieren, Interpolieren, Präsentieren usw.
Diese Grafik zeigt ein Beispiel eines vereinfachten Kreativprozesses für ein Designprojekt.
KI kann in alle Phasen des Workflows eingebunden werden, egal wie dieser aussieht, sie muss aber natürlich nicht in allen Phasen Verwendung finden. Im Folgenden präsentiere ich Ihnen aufgesplittet in 10 Schritte den mögli- KI kann in alle Phachen Einsatz von KI im typischen Workflow eines Designprojekts. Bitte sen des Workflows nehmen Sie diese zehn Schritte als Hilfe für die Analyse Ihres Work- eingebunden werden flows. Sie helfen ungemein, sich nicht in den tausenden Tools und Möglichkeiten zu verirren und damit auch viel Zeit und eventuell Geld zu verlieren. Wir werden die Schritte im weiteren Verlauf gemeinsam durchgehen, und Sie können bei jedem Schritt direkt mitarbeiten.
In 10 Schritten zum Einstieg 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Den eigenen Workflow reflektieren, in Teilschritte aufteilen und notieren Die Teile des Prozesses identifizieren, die man optimieren möchte Gezielt für diese Teilschritte KI-Tools, Programme und Funktionen suchen Testen und informieren, ob diese Tools das können, was man benötigt Prüfen, ob der Einsatz des Tools sinnvoll ist und den Workflow bereichert Erst dann tiefer einsteigen und sich in die Tools einarbeiten Mit internen Projekten starten, nicht gleich den dringenden Auftrag angehen Sich Zeit geben, das Arbeiten mit dem Tool zu erlernen und zu verbessern Resümee: Bringt es mich weiter? Oder kostet es mich mehr Zeit als sonst? Implementierung in den professionellen Workflow
Ansätze zur Integration von KI | 103
Schritt 1: Den eigenen Workflow reflektieren Skizzieren Sie zunächst gewissenhaft Ihren Workflow. Gehen Sie bewusst durch Ihren Berufsalltag, und notieren Sie einige Tage lang die Schritte und Teilschritte, die Sie zum Erfüllen Ihrer Aufgaben ausführen. Hier geht es nicht um das Wie, sondern um das Was. Sie können sich an den folgenden Beispielen orientieren. Fangen Sie ganz grob an, ohne in die Details zu gehen. Das machen wir dann in Schritt 2–3. Hier ein paar Beispiele für Teilschritte, die Sie in diesem Teil des Workflows gehen können: J J J J J J J J J J J J J J J J J J J J
Projektplan und Zeitplan erstellen To-do-Listen erstellen und organisieren E-Mails zusammenfassen (und wichtige Punkte auflisten) Briefings schreiben, zusammenfassen und ergänzen Recherche über das Projekt/den Kunden Bildrecherche Zusammenfassung von Texten, um die Kernaussagen zu finden Texte oder Dokumente auf bestimmte Stichworte untersuchen lassen Texte schreiben und korrigieren Brainstorming von Ideen, Namen und Titeln Erste Ideen visualisieren Kreativitätstechniken ausprobieren Inspiration durch andere (z. B. auf Pinterest, Behance und Co.) Moodboards erstellen Storyboards entwickeln Bildbriefings erstellen Farben, Farbkombinationen und -harmonien finden und ausprobieren Schriften finden und Schriftkombinationen ausprobieren Zielgruppenanalyse und Persona Verschiedene Stile ausprobieren
Je nach Berufsfeld werden ähnliche, aber vielleicht auch andere Aufgaben und Tätigkeiten anfallen. Sollten Sie in einem Unternehmen arbeiten, lassen Sie Ihre Teammitglieder solche Listen erstellen, um einen Eindruck zu erhalten, welche Tätigkeiten besonders häufig vorkommen. Sie können die Listen auch ChatGPT geben und auswerten oder sortieren lassen sowie Fragen zu den Daten stellen. Der Einsatz von KI ist ebenso eine Kosten-Nutzen-Frage, und daher macht es mehr Sinn, diese Werkzeuge für wichtigere, häufig auftretende Aufgaben zu verwenden als für die, die einmal im Jahr vorkommen. Daher ist die Auflistung der tatsächlichen Aufgaben so wichtig und kann Ihre Entscheidung für ein KI-Tool maßgeblich beeinflussen.
104 | Kapitel 3: KI im Designworkflow einsetzen
Schritt 2–3: Teilschritte auswählen und KI dafür finden Schauen Sie in der Auflistung, oder machen Sie eine eigene Liste mit einzelnen Tätigkeiten, die in Ihrem Arbeitsalltag anfallen. Was würden Sie gerne automatisieren oder wo wünschen Sie sich kreative Unterstützung? Fangen Sie zunächst mit zwei oder drei Tätigkeiten an, bei denen Sie sich von KI helfen lassen. Hier im Buch finden Sie einige Beispiele und KI-Tools für den Kreativalltag. Sollten Sie hier nicht fündig werden oder sehr spezielle KI-Tools suchen, gehen Sie auf Webseiten wie theresanaiforthat.com oder opentools.ai und suchen dort nach Möglichkeiten, diese Aufgaben mit KI zu unterstützen. Vielleicht gibt es aber auch Work arounds ohne KI?
Bild generiert mit ChatGPT und DALL-E 3
Die Wahl fällt nicht immer leicht. Meine Empfehlung ist es, einfach ein bis zwei Tools direkt auszuprobieren, um herauszufinden, ob diese das können, was Sie von ihnen erwarten. Wenn nicht, können Sie sich auf die Suche nach anderen Tools machen. Manchmal gibt es KI-Anbieter, die sehr viel auf einmal versprechen, ihr Tool als eierlegende Wollmilchsau anpreisen. Aus Erfahrung kann ich sagen, dass diese Tools nicht immer die besten Ergebnisse liefern. Wie auch bei Menschen sind oft Spezialisten notwendig, um eine wichtige Aufgabe adäquat auszuführen. Es ist völlig okay, sich an den großen Anbietern wie OpenAI, Midjourney, Adobe und Co. zu orientieren und erst, wenn Sie damit nicht weiterkommen, spezifischere Tools herauszusuchen.
KI wird manchmal als eierlegende Wollmilchsau angepriesen – ein Tool für alles. Aber hier sollte man sich genau anschauen, ob dieses Tool den eigentlichen Zweck wirklich erfüllt oder ob sie alles, dafür aber nichts richtig gut kann.
Ansätze zur Integration von KI | 105
PRAXIS Moodboards mit Midjourney Das Erstellen von Moodboards ist oft Teil des Kreativworkflows. Sie dienen zur Ideensammlung, zur Ideenpräsentation oder zum Erstellen von Bildbriefings für Fotoshootings, Filme, Illustrationen uvm. Bisher habe ich mit Midjourney die besten Ergebnisse für komplette Moodboards erreicht. Sie können aber jede andere Bild-KI nutzen, sich solche Boards oder einzelne Bilder generieren lassen und diese dann selbst zu einem Moodboard zusammenfügen. Das Beispiel-Moodboard soll für das Produkt design einer neuen Kaffeesorte dienen. Gibt es an diesem Punkt schon Vorgaben aus der Corporate Identity eines Kunden, können hier weitere Details im Prompt hinzugefügt werden.
Der erste Ansatz ist ein nachhaltiges, natürliches Design, der zweite Ansatz ein Kontrast dazu mit mehr Extravaganz und leuchtenden Farben: /imagine moodboard for a product design of a new blend from a coffee company, for young people, vibrant colors, eye catching extravagant design, modern coffee drinks
/imagine moodboard for a product design of a new blend from a coffee company, for young people, natural colors, natural ecofriendly packaging, modern coffee drinks
Extravaganz und »eye catching« wurden hier gut umgesetzt.
Farbe, Textur und Fotos passen zu Nachhaltigkeit.
106 | Praxis: Moodboards mit Midjourney
Fazit Bei der Erstellung von Moodboards lasse ich der KI gerne mehr Freiheit und gebe so wenig wie möglich vor. So limitiere ich die KI nicht in den Möglichkeiten, auf die ich selbst eventuell nie gekommen wäre. KI ist wie ein kreativer Zufallsgenerator und besser als jedes Pinterest-Board, um sich Ideen und Inspiration zu suchen. Probieren Sie es einmal aus, und lassen Sie sich überraschen.
Bilder mit Midjourney generiert
Hier sind weitere Ergebnisse aus den beiden Prompts für Moodboards. Daraus lassen sich z. B. Farbschemata erstellen sowie Ideen aus Details oder Designvorschlägen entwickeln. Probieren Sie verschiedene Stile aus, und lassen Sie sich von den Ergebnissen überraschen.
Praxis: Moodboards mit Midjourney | 107
Schritt 4–6: Testen, prüfen, einarbeiten Erste Tests zeigen schnell, ob ein Tool für Ihren Einsatzzweck taugt. Aber Achtung: Nur, weil man bei den ersten Versuchen kein zufriedenstellendes Ergebnis erhält, bedeutet das auch nicht direkt, dass Sie gleich zum nächsten Tooltest übergehen sollten. Nehmen Sie sich etwas mehr Zeit, und probieren Sie verschiedene Dinge KI bietet viele Kombina- aus, schauen Sie sich Beispiele anderer an und lernen Sie daraus. Manche Tools kann man erst nach etwas mehr Zeit wirklich richtig tionsmöglichkeiten von einschätzen, mit anderen kommt man vielleicht schneller zurecht. Funktionen und Tools Es braucht oft eine gewisse Einarbeitungsphase, um ein Gefühl für die Funktionsweise der einzelnen Tools zu bekommen und deren Stärken und Schwächen zu erkennen. Die Flexibilität von generativer KI bietet so viele Kombinationsmöglichkeiten von Funktionen und Tools, dass es einige Zeit braucht, um diese sicher im Workflow einzusetzen. Fast alle Anbieter stellen Anleitungen und Ressourcen zu ihren KI-Tools auf ihre Websites. Bei vielen gibt es Communitys (z. B. über Discord), die bei Problemen schnell helfen. Hier müssen Sie darauf achten, auf dem neuesten Stand zu sein, denn häufig kommen Neuerungen heraus, die noch mehr ermöglichen, aber auch die bisherige Arbeitsweise mit den Tools verändern können. In Kapitel 4 und 5 lernen Sie mehr über die Funktionsweise von generativer KI wie ChatGPT, Midjourney, Stable Diffusion und Co. In Praxisbeispielen und Tutorials sehen Sie, wie Sie verschiedene KI-Prompts und -Funktionen für Ihre Aufgaben im Kreativalltag einsetzen können. Vielleicht finden Sie ja noch ein paar Tätigkeiten aus Ihrem Workflow, die Sie mit KI ausprobieren möchten? Schritt 7–9: Tools in internen Projekten auf Herz und Nieren testen und prüfen Bevor Sie sich mit den neuen KI-Tools in das nächste Kundenprojekt mit Deadline stürzen, ist es empfehlenswert, zunächst mit einem eigenen Projekt zu starten. Das kann privater, aber auch beruflicher Natur sein, z. B. für das eigene Business. Hauptsache kein Projekt, das hohe Anforderungen mit sich bringt und auch noch zeitkritisch ist. Sollte es doch dazu kommen, dass mit KI gearbeitet werden soll (z. B. auf Kundenwunsch), machen Sie lieber einen Test und stimmen mit dem oder der Kund*in ab, ob das Ergebnis den Erwartungen entspricht. Natürlich kann man Funktionen wie die Generative Füllung in Adobe Photoshop gerne auch direkt bei einem Kundenprojekt ausprobieren. Oder ein Bild für ein Composing mit Stable Diffusion erzeugen. Bei komplexeren Projekten ist allerdings wichtig, das Werkzeug sehr gut zu beherrschen und dessen Grenzen zu kennen, bevor man viel Zeit verschwendet und vergeblich versucht, Aufgaben und Probleme mit Hilfe von KI zu lösen. Geben Sie sich und der KI Zeit, zu einem guten Team zu werden. Aber seien Sie auch bereit, ein Werkzeug gehen zu lassen, wenn es einfach nicht passt. Wenn der Aufwand den Nutzen übertrifft, dann ist das Tool oder KI allgemein nicht geeignet, den Workflow zu unterstützen. Außerdem verändern sich, wie gesagt, die Fähigkeiten der
108 | Kapitel 3: KI im Designworkflow einsetzen
KIs ständig – was heute nicht gut klappt, kann in ein paar Wochen kein Problem mehr sein. Bleiben Sie auf dem Laufenden, um neue Möglichkeiten zum Einsatz von KI zu entdecken. Schritt 10: Anpassung des Workflows Jetzt wird es ernst: Sie haben Ihr Tool (oder mehrere) ausgewählt und möchten diese(s) in den eigenen Workflow einbauen. Es kann sein, dass Sie Ihren Workflow anpassen müssen oder aber auch das Tool, mit dem Sie arbeiten wollen. Prüfen Sie genau, ob das Tool wirklich Erleichterung bringt und ob Sie Freude an der Arbeit damit haben. Optimieren Sie die Nutzung so, dass es für Sie passt, statt sich und Ihre Prozesse um die KI herum anzupassen.
Den Einsatz von KI auch kritisch betrachten
Bild generiert mit Stable Diffusion über DreamStudio
Dank der Flexibilität von KI-Tools sind den Möglichkeiten zur Nutzung kaum Grenzen gesetzt. Das macht es einerseits spannend, andererseits überfordert dies auch schnell. Daher möchte ich betonen, dass KI-Tools nicht immer eine Verbesserung bringen müssen. Es sollte immer der eigene Nutzen im Fokus stehen. Neues auszuprobieren kann neue Wege öffnen, aber es kann auch zeitintensiv sein und nicht immer den Effekt haben, den man sich wünscht. Ich empfehle daher, sich auf das eigene Arbeiten zu konzentrieren und weniger auf das, was andere mit KI kreieren und optimieren.
Was die Zukunft bringen wird, weiß noch niemand. Aber schon heute ist KI ein starkes Werkzeug, um die eigenen Fähigkeiten zu erweitern. Es liegt an uns, wie wir unsere Zukunft gestalten wollen – mit oder ohne die Hilfe von KI.
Ansätze zur Integration von KI | 109
Ansatz 2: Problemorientierter Einsatz von KI Sie haben bereits verschiedene KI-Modelle ausprobiert und möchten schauen, wie Sie jetzt eines oder mehrere in den Workflow integrieren können? Sie kennen deren Möglichkeiten und Grenzen und haben eventuell auch mehrere ähnliche Modelle zur Auswahl, die unterschiedliche Stärken und Schwächen haben? Dann passt für Sie der problemorientierte Ansatz sehr gut, denn Sie prüfen bei diesem Ansatz individuell je nach Aufgabe, ob und welches Tool Sie zur Lösung nutzen möchten. Diesen Ansatz habe ich in nachvollziehbare Schritte unterteilt, die wieder individuell ausfallen können, je nach Projekt und Aufgabengebiet. Dieser Ansatz eignet sich sehr gut für Teams oder bereits fortgeschrittenere Anwender*innen, die bereits Erfahrung mit mehreren KI-Tools gesammelt haben.
Beispielhafte Vorgehensweise 1. Problemstellung erfassen (z. B. Visualisieren einer Idee) 2. Teilbereich wählen, der mit KI umgesetzt werden soll (z. B. Bildgenerierung) 3. Tool-Auswahl nach Problemstellung, basierend auf Erfahrungen 4. Bringt Tool 1 keinen Erfolg, Tool 2 und 3 ausprobieren 5. Anpassung oder Umsetzung der Ergebnisse Wichtig ist bei dieser Vorgehensweise, bei der Problemstellung zu beginnen und sich dann Schritt für Schritt an das gewünschte Ergebnis heranzutasten. Es kann auch passieren, dass kein zufriedenstellendes Ergebnis herauskommt und anderweitig nach einer Lösung gesucht werden muss. Daher ist es sinnvoll, dass man sich gut genug mit der Arbeit mit KI auskennt, um schnell herauszufinden, ob und welche Tools Sinn machen und welche nicht funktionieren.
Kein Problem gleicht dem anderen Die Problemstellung kann ein Auftrag, ein Projekt oder eine Aufgabe sein, die Teil eines Größeren ist. Ob es nun um die Entwicklung eines Markennamens geht oder um Bildbearbeitung von Fotos – KI kann hier wirklich gut weiterhelfen. Wissen Sie, was Ihr nächster Schritt ist, dann suchen Sie sich Ihrer Erfahrung nach das Tool aus, das am besten dafür geeignet ist. Testen Sie, ob das Ergebnis in die richtige Richtung geht. Falls nicht, probieren Sie weitere Tools aus, und entscheiden Sie, womit Sie am ehesten zu einem Ergebnis kommen. Meistens bleibt es nicht aus, dass Sie den Vorschlag der KI anpassen müssen oder mit KI auch nur einen Teil generieren können, den Sie nun mit anderen Ressourcen zu einem Ganzen zusammenfügen und mit weiteren (KI-) Werkzeugen anpassen müssen. Sie werden nach einer Weile merken, dass man mit verschiedenen Modellen auch verschiedene Schwerpunkte hat. Mit der einen KI kann man sehr gut Illustrationen erstellen, die andere glänzt mit fotorealistischen Bildern. Irgendwann hat man sich
110 | Kapitel 3: KI im Designworkflow einsetzen
eine kleine Auswahl an Tools angeschafft, zwischen denen man je nach Aufgabe oder Problem wechseln kann. Kennt man das »Problem«, dann findet man auch schneller eine Lösung. Es kann sein, dass man zunächst ein paar Modelle ausprobiert und sich dann entscheidet, mit welchem man an der Lösung arbeiten möchte. Ich finde es auch immer wieder spannend, wie unterschiedlich die Ergebnisse der einzelnen Modelle ausfallen, und komme so auf weitere Ideen oder Stile, die ich nicht bedacht hatte. Eine Phase des Ausprobierens ist völlig normal und kann den Kreativprozess unterstützen, da man bei Fehlschlägen auch sieht, was man gar nicht möchte, und dies bei den weiteren Tests und im Projektverlauf berücksichtigen kann (z. B. mit Negativprompts, dazu mehr im nächsten Kapitel).
Bild generiert mit ChatGPT und DALL-E 3
KI setzt da an, wo die eigenen Fähigkeiten enden Ein Problem kann auch entstehen, wenn die eigenen Skills, die man im Laufe der Zeit erlangt hat, enden. Allerdings sehe ich KI eher als Fähigkeitserweiterung an und nicht als deren Ersatz – denn ich kann nur ein bestimmtes Foto generieren, wenn ich auch weiß, wovon ich spreche. Genauso ist es mit Illustrationen. In der Ausbildung oder im Studium sowie auch im Selbststudium lernt man verschiedene Methoden und Fertigkeiten, die man aber nicht alle bis zum Profi-Status ausbaut. Doch das (Fach-)Wissen darüber existiert und damit auch die Fähigkeit, zu sehen, ob das Ergebnis gelungen ist oder der Verbesserung bedarf.
Ob alleine oder im Team: Oft werden Workflows vom problemorientierten Ansatz bestimmt. Sie erhalten eine Aufgabe, und nun müssen Sie überlegen, wie Sie diese am besten lösen können. Wer dabei mitdenkt und neue sowie auch ressourcensparende Wege findet, kann damit auf Dauer erfolgreich werden. KI kann bei der Lösungssuche helfen und auch Teil der Lösung sein.
Ansätze zur Integration von KI | 111
PRAXIS Beispiele zur Anwendung von ChatGPT in der Konzeptionsphase Einige Anwendungen von KI für den Kreativworkflow haben Sie in diesem Buch bereits kennengelernt – wie das Erstellen von Texten zur Konzeption, Ideenfindung uvm. Hier sind weitere Anwendungsbereiche von KI, von denen ich Ihnen ein paar Beispiele aufzeigen möchte: J J
Recherche und Analyse von Daten und Informationen Ideen, Strategien und Konzepte entwickeln
Recherche und Analysen Sie können z. B. bei ChatGPT Dateien hochladen oder Texte in das Texteingabefeld eingeben und diese analysieren lassen. Sie können die folgenden Prompts nach Ihren Wünschen anpassen und mit Ihrem Fachwissen füllen: prompt Analysiere diesen Text/diese Datei auf Rechtschreibfehler und mache Vorschläge, um den Ausdruck des Textes zu verbessern, ohne den Stil zu verändern. prompt Übersetze den Text aus dem Do kument/der Webseite/im Chat in [hier die ge wünschte Sprache einsetzen]. prompt Analysiere die Stimmung oder den Ton des folgenden Kundenfeedbacks/der Bewertungen und mache Vorschläge, wie man darauf antworten könnte.
prompt Recherchiere die neuesten Trends in der [spezifische Branche] Branche, ein schließlich neu aufkommender Technologien, Verbraucherverhalten und Prognosen für die nächsten fünf Jahre. prompt Führe eine vergleichende Analyse der wichtigsten Akteure im Markt für [bestimm tes Produkt/Dienstleistung] durch.
Webseiten durchsuchen lassen Lassen Sie sich Webseiten zusammenfassen und gezielte Informationen herausfiltern. Sie können auch mehrere Webseiten eingeben und vergleichen lassen. Hier ein paar Ideen für Prompts, die den Beginn einer tieferen Auseinandersetzung mit einem Thema einleiten können: prompt Fasse den Hauptinhalt der Web seite [URL] zusammen und hebe die Schlüssel punkte hervor. prompt Vergleiche die Inhalte der Web seiten [URL 1] und [URL 2] und erläutere die Hauptunterschiede und die Gemeinsamkeiten stichpunktartig in Form einer Tabelle. prompt Welche Zielgruppe spricht die Webseite www.xyz.de an? Erstelle mir eine Zielgruppenbeschreibung und mache eine Ein schätzung, ob die Zielgruppe zu dem Unter nehmen/der Marke/dem Produkt passt.
prompt Identifiziere die Top-5-Wettbe werber von [Ihr Unternehmen] und führe eine detaillierte Analyse ihrer Marketingstrategien, Produktangebote und Marktanteile durch.
112 | Praxis: Beispiele zur Anwendung von ChatGPT in der Konzeptionsphase
prompt Untersuche das Verbraucherver halten und die Präferenzen in Bezug auf [be stimmtes Produkt, Dienstleistung oder Markt].
Das sind nur einige Ideen und Beispiele. Seien Sie konkret in dem, was Sie wissen möchten, und geben Sie eine gewünschte Struktur vor (siehe Kapitel 4 über Prompting), sollten Sie den Text weiterverwenden wollen. Lassen Sie sich Informationen tabellarisch geben, um einen besseren Überblick zu erhalten, oder in Form eines Blogartikels, den Sie anschließend weiterverarbeiten können. Strategien entwickeln Um detaillierte Analysen zu erstellen, müssen Sie der KI entsprechende Informationen und Daten bereitstellen. ChatGPT und Co. können mit großen Datenmengen arbeiten und Informationen nach Wunsch aufbereiten. Außerdem gibt es bereits spezialisierte Tools zur Analyse von Daten, wie swotbot.ai oder swotanalysis. dev für SWOT-Analysen. Microsoft bietet mit Power BI umfangreiche Möglichkeiten, Daten zu verarbeiten: microsoft.com/en-us/powerplatform/products/power-bi/ Mit Hilfe der analysierten Daten können Sie wiederum Strategien entwickeln (lassen): prompt Erstelle einen detaillierten Bericht über die Aktivitäten und Strategien unserer Hauptkonkurrenten im letzten Jahr, basierend auf Online-Daten und Marktberichten. prompt Segmentiere die Kundendaten nach Kaufverhalten, demografischen Merkma len und Kundeninteraktionen, um detaillierte Zielgruppenprofile zu erstellen.
prompt Analysiere die letzten fünf Jahre an Verkaufsdaten, Kundenfeedback und Marktberichten, um eine umfassende SWOTAnalyse für [Ihr Unternehmen] zu erstellen.
Konzeption und Storytelling basierend auf Recherche und Strategien Im konzeptionellen Bereich kann KI eine Bereicherung sein. Auf Basis von Informationen und Strategien können nun kreative Konzepte entwickelt werden, wie Sie es in Kapitel 2 bereits kennengelernt haben. prompt Erstelle einen Entwurf für eine Markengeschichte für [Ihr Unternehmen], die unsere Kernwerte und Unternehmensgeschich te hervorhebt, unter Ver wen dung von Da ten über unsere bisherige Kundeninteraktion und Markenwahrnehmung. prompt Erarbeite ein überzeugendes Storytelling-Konzept, das die Geschichte und die Kernwerte von [Ihr Unternehmen] aufgreift und [spezifische Zielgruppe] emotional an spricht. prompt Schlage ein kreatives Konzept für ein Kundenbindungs- oder Loyalty-Programm vor, das unsere Kunden für ihre Treue belohnt und gleichzeitig das Markenbewusstsein stei gert.
Es ergeben sich unendlich viele Möglichkeiten, wenn Sie KI im Arbeitsalltag einsetzen möchten. Sie kennen Ihren Workflow am besten, und mit Hilfe der Informationen im Buch können Sie eigene Prompts und Lösungen für Ihre Herausforderungen finden.
Praxis: Beispiele zur Anwendung von ChatGPT in der Konzeptionsphase | 113
Fazit zur Implementierung von KI in den Kreativworkflow Beide Ansätze sind natürlich miteinander kombinierbar. Es wird Tools geben, die in jedem Projekt genutzt werden und sich wiederholende Aufgaben übernehmen können. Und dann gibt es Tools, die zum Einsatz kommen, wenn ihre »Kompetenz« gerade gefragt ist. Jede Kreative und jeder Kreative ist anders – es gibt nicht den einen Weg für alle. Wer gerne mit der Hand zeichnet und das für den kreativen Prozess braucht, sollte diesen Teil des Workflows auf keinen Fall ersetzen. Für andere, die nicht zeichnen können, kann KI eine Kompetenzerweiterung sein, um Ideen und Gedanken in Form von Texten, Bildern usw. umzusetzen. Wer schlechte Laune bekommt, wenn er endlose Farbvarianten oder Freisteller für den Kunden erstellen soll, macht Jede Kreative und jeder das doch am besten mit der KI. Vorgesetzte sollten sich Gedanken Kreative ist anders – es machen, was ihre Mitarbeitenden brauchen und wollen. Schließlich müssen diese täglich mit den KI-Tools arbeiten. Wegen der Komgibt nicht den einen Weg plexität jedes einzelnen Tools ist es zwingend notwendig, eine ausfür alle. giebige Testphase einzurichten sowie Zeit und Ressourcen zur ständigen (!) Weiterbildung bereitzustellen. Es ist nicht mit einem Tagesworkshop getan, wegen der rasanten Weiterentwicklung von KI ist eine ständige Prüfung und Anpassung des Workflows notwendig, um das volle Potenzial von KI und Mensch zu nutzen. Kreative brauchen Pausen. Sich wiederholende Aufgaben ohne große kreative Fähigkeiten können solch eine Pause im Kreativalltag sein. Man könnte dazu verleitet werden, jetzt alles die KI machen zu lassen, und den Tag nur noch mit kreativen Herausforderungen füllen – oder noch schlimmer, den eigenen Denkapparat im Kopf auf Minimum zu schalten. Aber manchmal ist Entspannung wichtig, z. B. einen Freisteller von Hand zu machen. Und manchmal bringt der eigene Kopf doch die besten Ideen hervor. Wichtig ist, dass es Spaß machen sollte, mit KI zu arbeiten. Macht man es sich zur Pflicht, weil es alle tun oder es von einem erwartet wird, kann es passieren, dass das Gegenteil erreicht wird und KI zum Kreativhemmer wird statt zum Katalysator.
Tipps für den Einsatz von KI Mit diesem Vorgehen können Sie sich selbst oder Ihren Mitarbeitenden den Einsatz von KI erleichtern: 1. Erstellen Sie eine kleine Wissensdatenbank über bereits erprobte KI-Tools und deren Stärken und Schwächen sowie Prompts, die gut funktionieren. 2. Verwalten Sie die Zugänge, prüfen Sie, welches Abo Sinn macht oder ob es Alternativen gibt, sonst summieren sich die Kosten jeden Monat. 3. Bei Teams: Lassen Sie eventuell je nach Tool Spezialisten ausbilden, die anderen wiederum neue Funktionen zeigen und als Ratgeber im Team fungieren können. 4. Binden Sie bei Entscheidungen zu Tools in Unternehmen die Mitarbeitenden mit ein, und ermöglichen Sie zunächst eine kreative Testphase sowie Weiterbildungen, bevor Tools in den Arbeitsalltag integriert werden.
114 | Kapitel 3: KI im Designworkflow einsetzen
KI-Tools mit System auswählen
Bild generiert mit ChatGPT und DALL-E 3
Wenn Sie mit etwas Struktur an die Suche nach hilfreicher generativer KI herangehen, sparen Sie nicht nur viel Zeit, sondern auch Nerven und Geld. Ich kenne Kreative, die zig Tools ausprobiert haben und mit keinem zufrieden sind und letztendlich zu der Meinung tendieren, dass KI völlig überbewertet oder »noch nicht so weit« ist. Oder schlichtweg nichts für den kreativen und professionellen Einsatz. Sie sind über diese Testphase nie hinausgewachsen, da sie ohne Plan an die Sache herangegangen sind. Das ist so, als würden Sie alle Autos eines Autohändlers Probe fahren, ohne sich vorher mit dem Thema auseinandergesetzt zu haben und auch ohne eine Idee, für was Sie das Auto genau brauchen. Soll es schnell, sicher, groß, klein, sparsam oder geländefähig sein? Sie haben sich für ein sehr teures Modell entschieden – teuer ist schließlich gut, oder? Und schnell ist er auch noch. Doch dann kommt der große Tag und Sie fahren los und … bleiben im Matsch stecken. Oder Sie merken jetzt erst, dass die Familie keinen Platz findet.
Ein Porsche im Matsch – ein Sinnbild dafür, dass teuer nicht immer die beste Lösung ist.
Das passiert, wenn man sich vorher keine Gedanken macht, wofür man etwas braucht, und einfach loslegt. So kommt es, dass viele Kreative bei der Arbeit mit KI »stecken bleiben« oder sogar ganz davon wegkommen. Dabei haben sie sich das neueste Tool besorgt – nur brauchen sie vielleicht etwas anderes? Um solche Probleme zu vermeiden, habe ich Ihnen die wichtigsten Eckpfeiler zur Auswahl von KI-Tools zusammengestellt. Obwohl ich mich fast täglich mit generativer KI beschäftige, kenne ich längst nicht alle Tools, die es auf dem Markt gibt – die Auswahl ist einfach überwältigend. Daher gebe ich Ihnen jetzt meinen Masterplan an die Hand, mit dem Sie die Tools finden, die für Sie passen.
KI-Tools mit System auswählen | 115
Die wichtigsten Eckpfeiler der Toolauswahl Im ersten Kapitel haben Sie die verschiedenen KI-Modelle kennengelernt und welche bekannten Anbieter und Namen dahinterstecken. Doch das war nur ein Bruchteil dessen, was der Markt hergibt. Und dabei haben wir über die Modelle, die man selbst konfigurieren und programmieren kann, noch gar nicht gesprochen. Um die KI-Tools für Ihren Bedarf finden zu können, schauen wir uns daher die wichtigsten Eckpfeiler bzw. Kriterien an: 1. Art des Modells (Bild, Text, Video, multimodal …) 2. Marktführer, Entwickler oder Open Source 3. Grad der gewünschten Individualisierung 4. Technische Voraussetzungen und Möglichkeiten 5. Herkunft der Trainingsdaten, Datenschutz, Ethik 6. Preismodell und Kosten Die Wahl eines KI-Tools hängt also nicht nur von dem ab, was es kann, sondern auch von vielen verschiedenen Faktoren, die dabei helfen, die Auswahl einzugrenzen. Wir gehen die einzelnen Eckpfeiler jetzt einmal gemeinsam durch, und Sie erhalten dabei viele Informationen und hilfreiche Tipps, um bei der Toolsuche den Durchblick zu behalten.
Art des Modells (Bild, Text, Video, multimodal …) Welche Art von KI-Modell Sie brauchen, hängt stark vom gewünschten Ergebnis ab. Daher gehe ich bei der Suche immer zuerst vom gewünschten Anwendungsbereich aus und schaue dann, was es für Möglichkeiten gibt. Hier sind die häufigsten Aufgabengebiete: J J J J J
Pixeldateien erzeugen oder bearbeiten Vektordateien erzeugen oder Pixelbilder vektorisieren Videos erzeugen oder bearbeiten Texte verstehen, erzeugen und bearbeiten mehrere Inhalte und Daten gemeinsam verarbeiten (multimodal)
Es gibt Unterschiede in der Toolauswahl, wenn Sie Grafiken, Texte oder Videos neu erzeugen oder nur bearbeiten möchten. Mittlerweile gibt es aber auch multimodale KI, die mehrere dieser Aufgaben erfüllen kann, oder Programme, in die verschiedene Modelle für Teilaufgaben integriert wurden, wie Adobe Photoshop und Adobe Illustrator. Im Verlauf dieses Buches werden Sie die bekanntesten Anwendungen besser kennenlernen und auch lernen, welche Möglichkeiten Sie haben, diese zu nutzen.
116 | Kapitel 3: KI im Designworkflow einsetzen
Noch einmal zur Erinnerung: Die Masse an KI-Tools baut meist auf den in der folgenden Tabelle genannten und schon besprochenen Technologien auf. Das gilt auch für die Open-Source-Modelle, die kostenfrei zur Verfügung stehen. Es sind also nicht alles komplett »neue« KIs, die tagtäglich entstehen. Das ist, als würden Sie ein bewährtes Kuchenrezept nehmen und es nach Ihrem Geschmack abwandeln. Modell
Aufgabe
Beispiele
GAN
zur Generierung und Interpolation von Pixelbildern geeignet, aber auch für Videos und 3D-Objekte, zur Klassifizierung von Bildern usw.
Real-ESRGAN, StyleGAN, CycleGAN, Artbreeder, DeepDream (Google)
Diffusion
zur Generierung von Bild- und Videomaterial
Stable Diffusion, Midjourney, DALL-E 3, Runway usw.
LLM
Verstehen, Erzeugen und Bearbeiten von Texten
ChatGPT, LLAMA, BARD usw.
Multimodal
Erzeugen und Bearbeiten von Inhalten wie Bildern, Texten oder Vektorgrafiken
Adobe Firefly, ChatGPT + DALL-E 3, Runway
Sonstige
Anwendungen, die teilweise durch KI unterstützt werden
Programme, Apps, Plugins uvm.
KI-Technologien und -Modelle und ihre Aufgaben im Kreativalltag
Kann KI mehr als »nur« Texte und Bilder erzeugen? Tatsächlich gibt es bereits einige Anbieter, die das Erstellen und Anpassen von Layoutvorlagen ermöglichen. Hier ein paar KI-Tools zum Stöbern: Designer von Microsoft, designer.microsoft.com Canva Magic Studio, canva.com/magic-home J Adobe Express, adobe.com/de/express J AdCreative.ai, de.adcreative.ai J J
Erwarten Sie allerdings (noch) keine ausgefeilten Designkonzepte. Diese Tools bringen mehr oder weniger brauchbare Ergebnisse zustande. Wenn es allerdings mal schnell und günstig sein soll, kann man durchaus damit starten. In diesem Buch bleiben wir allerdings bei den generativen KI-Tools, die bereits im Arbeitsalltag erprobt und für tauglich befunden wurden.
Recherche zu KI-Tools Da die meisten Online-Angebote und auch KI-Tools auf Englisch sind, wird auch die Suche auf Englisch die besten Ergebnisse bringen. Hier zeige ich Ihnen ein paar meiner Ressourcen und wie Sie für den Anfang dort fündig werden.
KI-Tools mit System auswählen | 117
Quelle
Beschreibung
theresanaiforthat.com
Riesige Datenbank mit Suchfunktion und Kategorisierung von KI-Tools. Man erhält eine kurze Beschreibung, Infos über das Pricing und kann die Bewertungen von anderen Nutzern lesen.
opentools.ai
Sehr gut sortierte Datenbank mit einer praktischen Chatfunktion zur Suche sowie Kategorisierungen nach Art und Pricing der Modelle.
futuretools.io
Suchmaschine für KI-Tools mit praktischen Filterformen nach Preismodell und Plattformen.
algorithms.design
Webseite mit vielen Infos sowie ausgewählten Tools mit kurzer Beschreibung sowie hilfreichen Ressourcen rund um das Thema KI im Design.
huggingface.co
Mehr als eine Datenbank: Diese Seite bietet KI-OpenSource-Tools und Modelle aller Art, die man direkt ausprobieren oder in einen eigenen Space übernehmen kann. Genau richtig für alle, die tiefer einsteigen möchten und Grundkenntnisse im Training oder der Programmierung von KI haben. Zudem gibt es eine Community und viele Ressourcen zum Lernen.
github.com
GitHub ist eine Plattform für Versionskontrolle und Kollaboration, die es Entwicklern ermöglicht, Code zu hosten, zu verwalten und gemeinsam an Software projekten zu arbeiten. Dort finden sich auch einige Open-Source-KI-Modelle, die man in den eigenen Space importieren, anpassen und nutzen kann.
colab.research.google.com
Google Colab ist ein kostenloser Cloud-Dienst, der auf Jupyter Notebooks basiert und es ermöglicht, maschinelles Lernen und Datenanalyse in Python durchzuführen, ohne eine Konfiguration vornehmen zu müssen, mit kostenlosem Zugang zu Rechen ressourcen plus GPUs.
Recherchemöglichkeiten für KI-Tools . Ein Hinweis noch: Die Plattformen wie Hugging Face, GitHub oder Google Colab eignen sich mehr für fortgeschrittene oder experimentierfreudige Nutzer*innen.
Neben den genannten Datenbanken und Plattformen habe ich noch weitere Tipps für die Suche nach dem richtigen KI-Tool:
118 | Kapitel 3: KI im Designworkflow einsetzen
J
J
J J
Bild generiert mit ChatGPT und DALL-E 3
J
Schauen Sie sich bereits vorhandene Programme genauer an, denn mittlerweile haben viele KI bereits integriert (z. B. Adobe, Figma und Co.), oder es gibt Plugins, um bestehende Software zu ergänzen. Suchmaschinen bedienen sich schon längerer Zeit Algorithmen, doch es gibt mittlerweile auch GPT-gestützte Suchmaschinen wie Google Bard, Microsoft Bing oder ChatGPT ab 4.0 mit Zugang zum Internet. Grafikmagazine bieten viele Artikel und Tutorials über KI im Design, online wie auch in den Print-Ausgaben. Bücher sind hervorragende Quellen für allgemeines Wissen über KI und Design. Influencer, Autorinnen und Speakerinnen in diesem Bereich sind ebenfalls gute Quellen für Inspiration und Informationen.
Die Menge an KI-Tools kann überwältigend sein. Täglich kommen neue hinzu, und bestehende erhalten neue Funktionen. Sich an den Marktführern zu orientieren kann helfen, einen guten Einstieg in die Arbeit mit KI zu erhalten. Aber auch kleine Tools und Apps können den Alltag entlasten.
Marktführer, Startups/Entwickler oder Open Source? Kreative sowie Unternehmen stehen oft vor einer wichtigen Entscheidung: Sollten sie auf etablierte Marktführer, auf aufstrebende Startups und unabhängige Entwickler oder auf Open-Source-Lösungen setzen? Diese Entscheidung ist von entscheidender Bedeutung, da sie die Qualität, Flexibilität und Kosten Ihrer KI-gestützten Designprojekte beeinflussen kann.
KI-Tools mit System auswählen | 119
Marktführer: bewährte Stabilität und Ressourcen Beispiele für Marktführer oder Unternehmen in der (generativen) KI-Branche sind: Midjourney, Open AI, Adobe, Microsoft, Google, NVIDIA oder Meta. Andere Unternehmen werden folgen. Die Wahl eines Marktführers im Bereich KI-Design-Tools bietet oft eine gewisse Stabilität und Verlässlichkeit. Diese Unternehmen haben jahrelange Erfahrung und Ressourcen, um hochentwickelte KI-Technologien in Anwendungen und Technologien zu integrieren. Sie haben eine breite Nutzerbasis und bieten in der Regel umfassenden Support und Schulungen an. Ein weiterer Vorteil ist die Integration in bestehende Design-Ökosysteme. Marktführer wie Adobe, OpenAI (mit Microsoft als Partner) und Co. haben KI-Funktionen in ihre Softwarepakete integriert, was nahtlose Workflows ermöglicht. Designer und Designerinnen, die bereits mit diesen Tools vertraut sind, können relativ einfach auf KI-Funktionen zugreifen. Allerdings hat die Qualität oft ihren Preis. Lizenzen für Marktführer-Software können kostspielig sein, insbesondere für Einzelpersonen oder kleine Teams.
Warum Marktführer? Fassen wir das Für und Wider für die Wahl eines KI-Tools eines Marktführers noch einmal zusammen: Langfristige Marktdurchsetzung: Marktführer haben die Ressourcen und die Erfahrung, um sich langfristig im Markt zu behaupten. Sie bieten regelmäßige Updates, Weiterentwicklungen und Anpassungsmöglichkeiten, um mit den sich wandelnden Anforderungen der Designbranche Schritt zu halten. Ihre etablierten APIs (Application Programming Interfaces) erleichtern die Integration in bestehende Systeme. J Ökosystem für Entwickler: Viele andere Tools und Anwendungen bauen auf den Systemen der Marktführer auf. Dies erleichtert die Zusammenarbeit und Integration in umfangreiche Projekte, da Entwickler auf bewährte Schnittstellen zurückgreifen können. J Besseres Training und Datenquellen: Marktführer wie Google haben Zugriff auf umfangreiche Libraries und Datenquellen für KI-Training. Adobe beispielsweise hat Zugang zu Adobe Stock, einer riesigen Sammlung von Ressourcen, die für Designprojekte genutzt werden. Zusätzlich bieten Marktführer in der Regel umfassenden Support und Schulungen für ihre Produkte an. J Sicherheit und Datenschutz: Besonders im professionellen Einsatz sind diese Themen wichtig. Marktführer bieten dafür meist Optionen und Transparenz, die den Einsatz auch für Kundenprojekte sicherer machen. J
120 | Kapitel 3: KI im Designworkflow einsetzen
Startups/Entwickler: Innovation und Anpassbarkeit Startups und unabhängige Entwickler sind häufig Quellen für innovative KI-Tools. Diese Akteure sind agil und haben die Freiheit, neue Ideen schnell umzusetzen. Sie könnten Lösungen bieten, die speziell auf die Bedürfnisse von Kreativen zugeschnitten sind und innovative Funktionen bieten, die bei etablierten Marktführern noch nicht verfügbar sind. Die Zusammenarbeit mit Startups und Entwicklern kann auch dazu beitragen, Ihre Designprozesse anzupassen und zu optimieren. Sie sind offener für Feedback und Anpassungen, um die Benutzererfahrung zu verbessern. Allerdings sind Startups und Entwickler möglicherweise nicht so stabil wie Marktführer. Es besteht das Risiko, dass sie nicht in der Lage sind, langfristigen Support oder kontinuierliche Updates zu bieten. Es ist wichtig, sorgfältig zu prüfen, ob das von Ihnen gewählte Startup oder der Entwickler die Ressourcen und das Engagement hat, um Ihre Anforderungen zu erfüllen.
Bild generiert mit Stable Diffusion über DreamStudio
Open Source: Gemeinschaft und Anpassbarkeit Open-Source-KI-Tools bieten eine ganz andere Dimension in der Nutzung von KI. Diese Projekte werden von einer globalen Entwicklergemeinschaft unterstützt und sind kostenlos verfügbar. Sie ermöglichen es Kreativen, die Software nach ihren eigenen Bedürfnissen anzupassen und zu erweitern. Die Offenheit und Transparenz von OpenSource-Projekten fördert die Zusammenarbeit und den Wissensaustausch in der Design-Community. Sie können es so einrichten, dass Ihre Daten und Arbeitsabläufe nicht in den Händen eines einzelnen Unternehmens liegen. Damit eignen sich solche Modelle besonders gut für Forschungszwecke.
Open Source spielt hoffentlich auch in der Zukunft von KI eine große Rolle, sodass mehr Menschen Zugang zu dieser Technologie ermöglicht werden kann und neue sowie einzig artige Wege in der Nutzung entstehen können.
KI-Tools mit System auswählen | 121
Allerdings erfordert die Nutzung von Open Source technische Expertise und Zeit, um die Werkzeuge einzurichten und anzupassen. Der Mangel an kommerziellem Support kann bei Problemen herausfordernd sein, obwohl die Gemeinschaft Hilfestellung leisten kann. Fazit Insgesamt beruht die Wahl zwischen Marktführern, Startups/Entwicklern und OpenSource-KI auf einer Abwägung zwischen Stabilität, Innovation, Kosten und Anpassbarkeit. Sie sollten Ihre spezifischen Bedürfnisse und Prioritäten sorgfältig berücksichtigen, um die richtige Wahl zu treffen. Es ist auch möglich, eine Kombination aus diesen Optionen zu nutzen, um das Beste aus allen Welten zu erhalten. Je nach Anwendungsfall tritt meist automatisch eine Kombination verschiedener Modelle unterschiedlicher Anbieter auf.
Empfehlung für die Anfänge mit KI Es braucht eine Weile, KI besser zu verstehen, und mehrere verschiedene Anwendungsfälle, um damit sicherer zu arbeiten. Wer dann tiefer einsteigen möchte, kann sich mehr in die Open-Source-Community hineinwagen und sich mit dem Training eigener Modelle beschäftigen. Anbieter wie Runway oder nun auch OpenAI bieten bereits Möglichkeiten, ohne Programmierkenntnisse Modelle zu trainieren und anzupassen.
Grad der gewünschten Individualisierung Die vorhandenen KI-Modelle erfüllen nicht Ihre Bedürfnisse, oder Sie möchten die Modelle so anpassen, dass sie für Ihre Zwecke passen? Einige Anbieter bieten bereits die Möglichkeit zur Individualisierung an, wie das Erstellen eigener GPTs bei ChatGPT oder das Training eigener Modelle bei Runway. Dazu gibt es wie bereits erwähnt OpenSource-Modelle wie Stable Diffusion, die für eigene Zwecke umprogrammiert oder trainiert werden können. Die Anpassung und das Training eigener KI-Modelle erfordert jedoch spezifische Kenntnisse und Ressourcen. Für diejenigen, die tiefer in die Materie eintauchen wollen, ist ein Grundverständnis in Programmierung unabdingbar. Häufig verwendete Programmiersprachen in der KI-Entwicklung sind Python und JavaScript, wobei Python aufgrund seiner umfangreichen Bibliotheken und Frameworks wie TensorFlow oder PyTorch besonders beliebt ist. Darüber hinaus sind Plattformen wie Google Colab oder Jupyter Notebooks nützliche Werkzeuge, um eigene Modelle zu entwickeln und zu trainieren. Sie bieten eine benutzerfreundliche Oberfläche und die Möglichkeit, Code
122 | Kapitel 3: KI im Designworkflow einsetzen
direkt im Browser auszuführen. Dies senkt die Einstiegshürden für Anfänger und erleichtert außerdem den Zugang zu leistungsstarken Rechenressourcen. Für diejenigen, die eigene KI-Modelle erstellen möchten, ist auch das Verständnis von maschinellem Lernen und neuronalen Netzen überaus wichtig. Hier kommen OpenSource-Ressourcen ins Spiel, die nicht nur Zugang zu Code und Algorithmen bieten, sondern auch eine Gemeinschaft von Entwicklern, die ihr Wissen und ihre Erfahrungen teilen. Plattformen wie GitHub oder GitLab sowie Hugging Face sind dabei zentrale Anlaufstellen, um solche Ressourcen zu finden und sich mit der Community auszutauschen. Kommen wir hier einmal zu einem Praxisbeispiel: Anbieter wie Runway ermöglichen es, bereits mit wenigen Trainingsbildern (ca. 15 Trainingsbilder reichen schon aus!) ein eigenes Modell zu trainieren. Dazu habe ich einige Kaffeebilder aus dem Praxisbeispiel »Konsistenter Stil mit Midjourney« in Kapitel 5 als Trainingsmaterial verwendet und ein neues Bild generiert. Leider ist die Qualität der Bil- Voraussetzung für der nicht vergleichbar mit anderen Bild-KIs, der Look wurde jedoch das Training eigener sehr gut adaptiert.
Modelle ist Know-how und Zugang zu Daten
Bild generiert in Runway mit einem selbst trainierten Modell
Neben dem technischen Know-how ist auch der Zugang zu Daten eine wesentliche Voraussetzung für das Training eigener Modelle. Datasets können selbst erstellt oder aus vorhandenen Quellen bezogen werden. Dabei ist jedoch auf die Einhaltung von Datenschutzrichtlinien und Urheberrechten zu achten.
Ein Beispielbild aus einem selbst trainierten Modell beim Anbieter Runway
KI-Tools mit System auswählen | 123
Fazit Die Individualisierung und das Eigen-Training von KI-Modellen ist ein spannendes Feld mit vielen Möglichkeiten. Es erfordert jedoch eine Kombination aus technischem Wissen, Zugang zu Ressourcen und einer engagierten Community. Mit der richtigen Vorbereitung und Unterstützung können jedoch alle, die Interesse haben, in diesem Bereich tätig werden und eigene, maßgeschneiderte KI-Lösungen entwickeln. Zudem gibt es bereits viele Spezialist*innen und auch Unternehmen, die eben solche Dienste anbieten und Ihnen individualisierbare Lösungen entwickeln können.
Lernen Sie spielend programmieren Sie möchten z. B. Python, JavaScript, HTML, CSS oder andere Programmiersprachen lernen? Probieren Sie die Mimo-App (mimo.org) aus. Sie macht nicht nur Spaß, sondern hilft sehr, Programmiersprachen Schritt für Schritt zu lernen.
Technische Voraussetzungen und Möglichkeiten Das Feld der generativen Künstlichen Intelligenz bietet heute eine Vielzahl von Interaktionsmöglichkeiten. Im Zentrum dieser Entwicklung steht das User Interface, die Schnittstelle zwischen Mensch und KI, die entscheidend für die Art und Weise ist, wie wir mit KI-Systemen kommunizieren und interagieren. Kommunikationsschnittstellen Moderne KI-Modelle bieten beeindruckende Fähigkeiten, von Text-zu-Bild-Konversionen über Bild-zu-Bild- und Text-zu-Video- bis hin zu Bild-zu-Video-Transformationen. Ein relativ neuer (seit ca. 2022), aber zunehmend beliebter Weg der Interaktion ist die Spracheingabe (der berühmte Prompt), die es ermöglicht, direkt mit der KI in natürlicher Sprache zu kommunizieren. Diese intuitive Form der Interaktion wird durch fortschrittliche Spracherkennungsalgorithmen ermöglicht und eröffnet ganz neue Dimensionen der Zugänglichkeit und Benutzerfreundlichkeit. Anwendungen wie Adobe Firefly (siehe Kapitel 5) bieten eine sehr intuitive Benutzeroberfläche, wogegen Midjourney (ebenfalls Kapitel 5) eine tiefere Einarbeitung voraussetzt, damit aber auch viele Möglichkeiten bietet. Im Laufe der Zeit wird sich die Nutzeroberfläche mehr an unsere Bedürfnisse anpassen. Technische Schnittstellen Die technischen Schnittstellen zu KI sind vielfältig und reichen von APIs (Application Programming Interfaces) über Plugins und spezialisierte Programme auf dem eigenen Rechner bis hin zu Zugängen über gängige Plattformen wie GitHub, Browser, Discord und verschiedene mobile Apps. Diese Vielfalt an Schnittstellen ermöglicht es Entwicklern und Nutzern, KI-Modelle in eine breite Palette von Anwendungen und Umgebungen zu integrieren.
124 | Kapitel 3: KI im Designworkflow einsetzen
Technische Ressourcen Für das Betreiben eigener KI-Modelle sind technische Ressourcen entscheidend. Man braucht starke Hardware, vor allem leistungsfähige CPUs und GPUs für das Training komplexer Modelle. GPUs sind besonders wichtig, da sie das Training beschleunigen, aber sie verbrauchen auch viel Strom und erzeugen Wärme. Bei der Software sind KIfreundliche Betriebssysteme, Programmiersprachen und spezielle Bibliotheken wie Python mit TensorFlow oder PyTorch wichtig. Große Datensätze für das KI-Training benötigen viel Speicherplatz und eine effiziente Datenverarbeitung, die intern oder über Cloud-Speicher realisiert werden kann. Auch Netzwerkanbindung und -sicherheit sind wichtig, vor allem für Online-Zugriff und Datensicherheit. Mit der richtigen Hardware, Software und Sicherheitsmaßnahmen können Entwickler leistungsfähige KI-Systeme aufbauen und betreiben. Qualität des Outputs Ein wesentlicher Aspekt, der bei der Arbeit mit generativer KI berücksichtigt werden sollte, ist die Verwendbarkeit der erzeugten Inhalte. Dies umfasst die Prüfung der Auflösung, die Möglichkeit des Upscalings sowie die allgemeine Eignung des Outputs für den vorgesehenen Verwendungszweck. Das Endprodukt sollte nicht nur technisch einwandfrei sein, sondern auch den ästhetischen und funktionalen Anforderungen des Projekts entsprechen. Fast alle Bild-Generatoren bieten das integrierte Upscaling der generierten Bilder an, meist jedoch ohne die Möglichkeit, diesen Prozess zu beeinflussen. Schauen Sie daher auch nach anderen Möglichkeiten, Bilder zu interpolieren, und vergleichen Sie die Ergebnisse. In Kapitel 5 stelle ich Ihnen mein Lieblingstool Magnific AI näher vor, das nicht nur die Auflösung erhöht, sondern auch Details der Bilder verbessern kann.
Herkunft der Trainingsdaten, Datenschutz, Ethik Ein weiterer (teils einschränkender und hochdiskutierter) Faktor in der professionellen und kommerziellen Anwendung von KI-Modellen sind die Herkunft der Trainingsdaten sowie die damit verbundenen Datenschutz- und Ethikfragen. Dies beinhaltet die sorgfältige Überprüfung der Datenquellen hinsichtlich ihrer Authentizität, Repräsentativität und ethischen Vertretbarkeit. Die verwendeten Beachten Sie immer Trainingsdaten sollten nicht nur technisch geeignet, sondern auch auch den Datenschutz frei von Vorurteilen und Verzerrungen sein, um ein qualitativ hochund Ethikfragen wertiges und vielfältiges Ergebnis zu gewährleisten. Und da die meisten Anbieter ihre Datenquellen nicht völlig offenlegen, kann es schwierig sein, sich auf die allgemeinen Aussagen bezüglich der Datenherkunft und des Trainings zu verlassen. Die Einhaltung von Datenschutzrichtlinien und Urheberrechten spielt dabei eine ebenso zentrale Rolle, wie Sie in Kapitel 6 noch ausführlicher erfahren werden.
KI-Tools mit System auswählen | 125
Bild generiert mit ChatGPT und DALL-E 3
Der Einsatz von Siegeln für vertrauenswürdige und geprüfte KI-Modelle wird besonders in Europa noch eine Rolle spielen und für mehr Transparenz und Sicherheit sorgen.
Des Weiteren sind die ethischen Aspekte bei der Arbeit mit KI-Modellen nicht zu vernachlässigen. Dies schließt die Berücksichtigung von Fairness, Transparenz und Verantwortlichkeit in der Entwicklung und Anwendung der KI-Technologien ein. Viele Unternehmen schrecken vor der Anwendung von KI im Arbeitsalltag zurück, da in diesen Bereichen noch rechtliche Unklarheiten bestehen. Es entwickelt sich alles sehr schnell, und das Rechtssystem kommt nicht hinterher. Daher ist es wichtig, sich stetig mit dem Thema Recht und Ethik in Verbindung mit KI zu beschäftigen, wenn man mit dieser Technologie kommerziell arbeiten möchte.
Preismodell und Kosten Um mit KI professionell zu arbeiten, kommt man kaum um Bezahlmodelle herum. Sie sind meist schneller und bieten höhere Auflösungen im Output und weitere Möglichkeiten in der Generierung von Inhalten sowie in Privatsphäreeinstellungen. Hier sind ein paar Anhaltspunkte, die die Kosten der einzelnen Modelle beeinflussen können: J J J J J
Wird das Modell täglich gebraucht oder nur ab und zu? Ist es mehr zum Entwickeln von Ideen gedacht oder wird hochauflösender Output benötigt? Brauchen Sie individuelle Anpassungsmöglichkeiten und APIs? Wie viele Personen brauchen Zugriff auf das Modell? Brauchen Sie mehr Privatsphäre und Datenschutzeinstellungen?
126 | Kapitel 3: KI im Designworkflow einsetzen
Es gibt verschiedene Bezahlmodelle, und daher ist es sinnvoll zu prüfen, welches Modell für Ihren Zweck am besten passt. Hier ist ein Überblick über die gängigsten Bezahlmodelle und deren Vor- und Nachteile. Preismodell
Vorteile
Nachteile
Kostenlos
ohne Verbindlichkeit, keine Kosten, ideal zum Einsteigen und Ausprobieren, häufig OpenSource-Modelle (wie Stable Diffusion), die anpassbar oder erweiterbar sind
oft am wenigsten Privatsphäre, Werbung, Modell noch in Entwicklung, Ergebnisse nicht immer kommerziell nutzbar, oft langsamer oder je nach Auslastung nicht verfügbar
Abonnement
geeignet für intensiven Gebrauch, wird automatisch aufgefüllt, wenig Verwaltungsaufwand, meist werden Credits oder Serverzeiten erworben
monatliche Kosten, auch wenn man es nicht nutzt, beim Jahresabo nicht zwischendurch kündbar, unverbrauchte Ressourcen werden nicht auf die nächsten Monate übertragen
Credits
Einmalzahlungen oder Abozahlungen für ein Kontingent an Credits, ideal für den Gebrauch ab und zu
bei starkem Gebrauch können Credits schneller verbraucht sein und damit höhere Kosten verursachen als Abonnements
Bild generiert mit Midjourney
Kosten für KI-Modelle
Ein KI-Budget in der Finanzplanung von Unternehmen wird bald üblich sein.
Kostenlose Modelle sind prima für den Einstieg, aber nicht immer kommerziell nutzbar, oder die erstellten Inhalte können öffentlich einsehbar sein. Auch die Zuverlässigkeit ist nicht immer gegeben. Bezahlmodelle bieten oft weitere Möglichkeiten, wie z. B. mehr Privatsphäre sowie kommerzielle Nutzungsvereinbarungen.
KI-Tools mit System auswählen | 127
Die Informationen zu den Bezahlsystemen erhalten Sie bei den jeweiligen Anbietern. Im Prinzip mieten Sie überall Serverzeit, wenn Sie das Modell nicht auf dem eigenen Server laufen lassen. Nur die Art der Abrechnung unterscheidet sich etwas. Eine Möglichkeit eines Bezahlmodells sind Credits, Adobe und DreamStudio nutzen beispielsweise dieses Modell. Je nach Funktion, die ausgeführt wird, wird eine vorher bestimmte Anzahl an Credits oder Sekunden vom Kontingent abgezogen. Adobe macht das derzeit pauschal mit einem Credit pro Ausführung, bei DreamStudio erhält man vor jeder Ausführung eine Information, wie viele Credits (mit Nachkommastelle) es kosten wird, wenn man auf den Button zum Generieren klickt. Bei anderen Anbietern wie Midjourney, Runway oder OpenAI erwerben Sie »Serverzeit« im Abonnement. Alles, was Sie mit KI generieren, braucht mehr oder weniger Zeit, um es auf den Servern der Anbieter zu generieren. Diese Zeit »mieten« Sie mit dem Abo bei den Anbietern. Für Unternehmen gibt es meist teurere Kostenmodelle mit mehr Möglichkeiten für Privatsphäreeinstellungen oder exklusiveren Rechten und höheren Credit-/Token-/Rechenkontingenten. Vergleichen Sie die Anbieter und ihre Bezahlmodelle, und wählen Sie aus, was für Ihre Zwecke am besten passt.
Fazit zur Auswahl der richtigen KI-Modelle Das waren die wichtigsten Eckpfeiler, die Sie zu Rate ziehen können, um langfristig Freude mit Ihren KI-Tools zu haben. Nicht immer können alle Eckpfeiler berücksichtigt werden, und manche werden eine untergeordnetere Rolle spielen. Probieren Sie die Tools über einen längeren Zeitraum und auch für die verschiedenen Anwendungszwecke aus, bevor Sie ein Urteil darüber fällen. Für den professionellen Gebrauch rate ich dringend, zu den Bezahlversionen der Modelle zu wechseln. Sie werden mit den kostenlosen Tools schnell an die Grenzen des Möglichen stoßen und die Freude daran verlieren, da diese meist stark gedrosselt sind, was z. B. die Auflösung oder Anzahl an Token (Umfang des Ergebnis, siehe Kapitel 4) angeht. Und wie bereits erwähnt: Es gibt kaum ein Tool, das sich für alle möglichen Anwendungen eignet – kombinieren Sie die Stärken verschiedener Tools mit Ihren eigenen Fähigkeiten und Ihrem Wissen, um zu den besten Ergebnissen zu kommen. Das Nutzen von vorhandenen KI-Modellen offenbart oft, wo sich die Bedürfnisse besonders ausprägen und welche nicht durch diese abgedeckt werden können. Spezielle und individuelle Anwendungen zu programmieren, zu trainieren und zu betreiben, kann sehr zeit- und kostenintensiv sein. Fangen Sie also klein an, und überlegen Sie erst dann, größere Schritte Richtung API, Open Source oder Entwickler zu gehen.
128 | Kapitel 3: KI im Designworkflow einsetzen
Fünf Erkenntnisse aus meiner Arbeit mit KI
Bild generiert mit ChatGPT und DALL-E 3
An dieser Stelle möchte ich einige Erkenntnisse aus meiner täglichen Arbeit mit KI mit Ihnen teilen und somit dieses komplexe Kapitel etwas zusammenfassen.
Fünf wichtige Erkenntnisse, die Ihnen vielleicht weiterhelfen können
1. Es kommt nicht auf das Tool an, sondern auf den Zweck, den Sie verfolgen möchten. Es ist nicht falsch, sich verschiedene Tools anzuschauen und auszuprobieren. Aber die Jagd nach dem besten und neuesten Programm ist meist zeitraubend und wenig zielführend. 2. Zu hohe Erwartungen an KI kann schnell zur Enttäuschung führen und somit den Kreativprozess hemmen. Bleiben Sie offen, und machen Sie Ihre Vorarbeit (z. B. Recherche, Briefing, eigene Ideen finden), damit Sie das Potenzial von KI besser nutzen können. Nur so kommen Sie auch zu neuen und innovativen Ergebnissen. 3. Fangen Sie beim Groben an, und arbeiten Sie sich Schritt für Schritt mit der KI tiefer in das Thema hinein. So lässt es sich schneller und effizienter arbeiten, als gleich mit einem komplexen Text oder Bild zu beginnen. Außerdem lassen Sie so dem Prozess etwas Spielraum, sich auch in andere Richtungen zu entwickeln. Es kann sonst schnell passieren, dass wichtige Details »verschluckt« werden und somit keinen Platz im Ergebnis finden. 4. Seien Sie sich Ihrer eigenen Kreativität bewusst, und »pflegen« Sie diese, sie ist eine wertvolle Ressource. Finden Sie heraus, wie Sie sie beflügeln können und was sie blockiert. Suchen Sie auch fernab von Smartphone und Computer nach Inspiration und Ideen. 5. Arbeiten Sie mit KI, weil Sie Freude daran haben, und nicht, weil Sie denken, Sie müssten es. Es ist auch okay, nicht mit KI zu arbeiten oder gewisse Dinge selbst zu machen, auch wenn die KI sie übernehmen könnte.
KI-Tools mit System auswählen | 129
/imagine a scene from the tv show dickinson about the young poet Emily Dickinson, showing a scene from the future of a female graphic designer working with futuristic tools and artificial intelligence, photorealistic, high detail --ar 3:2
KAPITEL 4
Prompting für generative KI
KAPITEL 4
Prompting für generative KI Prompts sind die Hauptzutat für das Arbeiten mit generativer KI. Das Internet ist voll von Ressourcen, Listen, Tutorials und Kursen zum Thema Prompting. Ja es gibt sogar Bücher, die sich nur diesem Thema widmen, und neue Berufsfelder wie das Prompt-Engineering. Was bedeutet Prompting eigentlich und worauf muss man achten, wenn man mit generativer KI arbeiten möchte? Diese Frage ist zentral, wenn wir die Rolle der KI in kreativen Prozessen verstehen wollen. In meiner Forschung und praktischen Arbeit mit KI-Technologien habe ich festgestellt, dass Prompting weit mehr als nur eine technische Anweisung ist. Es ist die Kunst, die richtigen Worte und Konzepte zu finden, um die KIModelle zu inspirieren und zu leiten. Wie beeinflusst ein gut formulierter Prompt das Endergebnis? Kann ein Prompt die Grenzen der Kreativität erweitern oder stellt er eher eine Einschränkung dar? Dieses Kapitel soll nicht nur eine Einführung in das Prompting bieten, sondern auch Einblicke geben, wie wir durch gezielte Anweisungen das kreative Potenzial der KI optimal nutzen und somit neue Dimensionen in der Kreativarbeit erschließen können.
Einführung in das Prompting Zum Arbeiten mit KI gehört das Entwickeln eigener Prompts – im Fachjargon gerne auch Prompt-Engineering genannt. Es gibt mittlerweile sogar die Berufsbezeichnung des Promptingenieurs, Personen, die sich mit fast nichts anderem beschäftigen als dem Entwickeln und Verfeinern von Prompts für die eigenen bzw. die Zwecke des Unternehmens, für das sie arbeiten. Das Wissen über eine sinnvolle Promptstruktur und die einzelnen Bestandteile von Prompts bringt sehr wahrscheinlich Ergebnisse, die sich von denen »normaler« User abheben werden. Generative KI-Modelle unterscheiden sich nicht nur in der Art des Zugangs zum User Interface, sondern auch im Funktionsumfang und damit auch im Prompting. In Kapitel 3 haben wir uns bereits einige Ideen für Prompts im Bereich Ideenerzeugung und Inspiration angeschaut. Doch wie sieht es aus, wenn man eigene Prompts – gezielt für ein Projekt oder eine Aufgabe – erstellen möchte? Die Herausforderung im Prompting ist, dass es nicht DEN einen Prompt gibt, der für alle Modelle passt. Und kein Prompt
132 | Kapitel 4: Prompting für generative KI
der Welt wird zweimal genau dasselbe Ergebnis erzeugen. Das geht gegen die Natur der gegenwärtigen generativen KI-Modelle (siehe Praxisbeispiel »Ein Prompt, verschiedene KI-Modelle« in diesem Kapitel).
Definition Prompting Ein Prompt ist eine textuelle Anweisung oder ein Satz von Anweisungen, die einem KI-Modell gegeben werden, um eine spezifische Antwort oder ein Ergebnis zu generieren. Zum Beispiel kann ein Prompt für ein Textgenerierungsmodell eine Frage sein, auf die das Modell antworten soll, oder für ein bildgenerierendes Modell eine Beschreibung des zu generierenden Bildes. Viele KI-Anwendungen bieten aber auch zusätzliche Funktionen über ihre Benutzeroberfläche an, wie Schaltflächen, Dropdown-Menüs und Regler. Damit lassen sich weitere Einstellungen zum Textprompt ergänzen, und gerade für Anfänger können diese eine Hilfe sein, mit Stilen und Gestaltungsmitteln zu experimentieren. In generativen KI-Modellen wie ChatGPT und DALL-E sind Prompts entscheidend, weil sie dem Modell genau mitteilen, was von ihm erwartet wird, und sie die Qualität sowie die Relevanz der generierten Inhalte maßgeblich beeinflussen. Jedes KIModell hat zudem etwas andere Anforderungen und Möglichkeiten, die Sie in diesem und dem nächsten Kapitel näher kennenlernen werden.
Bevor ich Ihnen meine Prompt-Formeln zeige, steigen wir noch etwas tiefer in die Theorie des Promptings ein, damit Sie verstehen, worauf es ankommt, damit Sie Ihre ganz eigenen Prompts erstellen und entwickeln können. Daher werde ich Ihnen hier einige Ideen und Inspirationen sowie Informationen an die Hand geben, mit denen Sie je nach KI-Tool und Ihren Anforderungen neue und einzigartige Prompts entwickeln können. Außerdem noch ein Hinweis: Es ist wahrscheinlich, dass sich das Prompting immer weiterentwickelt und wir uns daher auch in unserer Mensch-Maschine-Kommunikation stetig anpassen müssen.
Hinweis auf spezifische Einstellungen, Parameter und Funktionen In diesem Kapitel erhalten Sie eine Übersicht über die wichtigsten Begrifflichkeiten rund um generative KI und das Prompting. Zu den Prompts gehören nicht nur Bildund Textanweisungen, sondern auch Einstellungen und Parameter. Einige Parameter und Funktionen verhalten sich in den verschiedenen Modellen ähnlich, werden aber unterschiedlich eingestellt oder angewandt. Wie die einzelnen Funktionen in den jeweiligen KI-Modellen aussehen und angewandt werden, zeige ich Ihnen in diesem und Kapitel 5, wenn es um KI-Tools und ihre Anwendung im Designalltag und deren Anwendungsbeispiele geht.
Einführung in das Prompting | 133
Prompting-Grundlagen Alleine im Jahr 2023 hat sich die Art des Promptings bei den meisten Modellen bereits stark verändert. Diese basieren fast alle auf der Grundlage »Text zu Text/Bild/Video/…«. In den Anfängen der generativen KI musste man eher prägnant, kurz und auch sehr beschreibend prompten, um zu einem Ergebnis zu kommen. Doch die Entwickler haben stark nachgelegt, und mit jeder neuen Version kamen neue Möglichkeiten des Promptings hinzu. Die Promptsprache Englisch war zunächst die alleinige Promptsprache. Mittlerweile gibt es aber immer mehr Modelle, die andere Sprachen verstehen, wobei Englisch weiterhin die Hauptsprache ist. Tatsächlich gibt es einige Berichte, dass die besseren Ergebnisse mit englischen Prompts entstehen als mit anderen Sprachen. Diese Erfahrung teile ich und prompte zumindest bei Bild-KIs meist automatisch auf Englisch, auch wenn die KI Deutsch versteht.
Schulenglisch vs. Promptenglisch Tatsächlich fehlen mir auch immer wieder die Vokabeln zu fachspezifischen Wünschen oder englischen Begriffen. Daher hilft es sehr, sich zunächst auf Deutsch (oder in der gewünschten Sprache) auszudrücken und es dann übersetzen zu lassen – natürlich mit KI. Dazu eignen sich DeepL, der Google-Übersetzer und ChatGPT. Sie finden in diesem Kapitel bei den Negativprompts den Link zu Listen mit Begriffen auf Deutsch und Englisch, um einen leichteren Einstieg zu erhalten. Lassen Sie sich inspirieren, und ergänzen Sie die Liste mit eigenen Ideen. Ich prompte meistens direkt auf Englisch und schlage einzelne Wörter nach. Das geht für mich schneller. Ich bin mir aber auch sicher, dass in Zukunft alle Sprachen zu guten Ergebnissen führen werden, das ist nur eine Frage der Zeit.
LLMs wie ChatGPT sind äußerst tolerant, was die Rechtschreibung im Textprompt angeht. Bild-KIs wie Midjourney sind nicht ganz so gnädig, und so können falsch geschriebene Wörter auch mal ignoriert oder anders interpretiert werden. Promptsammlungen, Generatoren und Inspiration Das Tolle ist: Man wird mit Promptideen und Inspirationen überschüttet. Das Problem ist: Man wird mit Promptideen und Inspirationen überschüttet. Gerade für den Einstieg ist das eine Herausforderung. Der beste Weg ist es, beim Entwickeln eigener Prompts Erfahrung zu sammeln. Aber es schadet nicht, sich von anderen Prompts inspirieren zu lassen. Schauen Sie sich daher die in der folgenden Tabelle aufgelisteten Generatoren oder Datenbanken ruhig einmal an.
134 | Kapitel 4: Prompting für generative KI
URL
Beschreibung
promptbase.com
Online-Marktplatz für KI-Prompts, bietet eine Vielzahl von vorgefertigten Prompts für verschiedene KI-Modelle, ermöglicht Nutzern den Kauf und Verkauf von eigenen Prompts.
prompts.chat
Sammlung von KI-Prompts speziell für Chat- und Textgenerierungsmodelle, bietet Inspiration und Ideen für die Nutzung von Sprach-KI-Systemen.
lexica.art
Visuelle Suchmaschine für KI-generierte Kunst, umfasst eine umfangreiche Sammlung von Kunstwerken, erstellt mit verschiedenen KI-Modellen, dient als Inspirationsquelle für KI-gestützte Kunst.
learnprompting.org
Bildungsressource zum Erlernen der Kunst des Promptings für KI-Modelle, bietet Anleitungen, Tutorials und Beispiele für effektives Prompt-Design.
supagruen.github.io/ StableDiffusion-CheatSheet/
Sammlung von Tipps und Tricks für die Nutzung des Stable-Diffusion-Modells, hilfreich für Anfänger und fortgeschrittene Nutzer.
huggingface.co/spaces/ doevent/prompt-generator
KI-basierter Promptgenerator auf Hugging Face Spaces, generiert kreative und effektive Prompts für verschiedene KI-Anwendungen.
promptfolder.com/ midjourney-prompt-helper/
Spezifische Sammlung von Prompts und Hilfsmitteln für das Midjourney-Modell, bietet nützliche Ressourcen und Inspirationen für die Bildgenerierung.
promptomania.com/ midjourney-prompt-builder/
Interaktives Tool zum Erstellen und Anpassen von Prompts für Midjourney, ermöglicht es Nutzern, eigene, maßgeschneiderte Prompts zu generieren.
huggingface.co/spaces/ Gustavosta/MagicPromptStable-Diffusion
Magischer Promptgenerator für Stable Diffusion auf Hugging Face Spaces, generiert automatisch Prompts für spezifische Anforderungen und Ideen.
Dies ist eine Liste von ausgewählten Promptgeneratoren und Ressourcen. Es gibt natürlich zahlreiche weitere Ressourcen.
Anhaltspunkte für das Prompting Wie bei allem ist Vorbereitung die halbe Miete. Der beste Prompt nutzt nichts, wenn man nur sehr wenige Informationen oder Fachkenntnisse hat, um sie der KI mitzuteilen. Natürlich kann man die KI auch dazu nutzen, sich Texte, Webseiten und PDFs zusammenfassen zu lassen. Hier kommt es auf die eigene Vorgehensweise an. Ich brauche die eigene Recherchearbeit, um bessere Ideen zu entwickeln. Indem ich mich in ein Thema hineindenke, Informationen sammle und tiefer einsteige, bekomme ich meist bessere Ideen, als wenn ich mir nur eine Zusammenfassung geben lasse. Ich
Einführung in das Prompting | 135
nutze aber auch gerne ChatGPT in Kombination mit der Web-Suche (Bing), um mir die Informationsbeschaffung etwas zu erleichtern. Vielen Kreativen fehlt beim Einstieg in das Prompting eine Art Leitplanke, an der sie sich orientieren können. Es folgen daher ein paar Anhaltspunkte, die Sie zunächst durchgehen können, um zu Ihren eigenen Prompts für Text- wie auch Bild-KI zu kommen: 1. Vorbereitung/Informationen: Welchen Kontext können Sie liefern? 2. Klare Zieldefinition: Was möchten Sie am Ende herausbekommen? 3. Beschreibung: Geben Sie Informationen und beschreiben Sie Ihre Wünsche. 4. Kreativitätsspielraum: Wie viel Freiraum hat die KI bei der Umsetzung? 5. Details: Welche Vorgaben gibt es für Genre, Stil, Ton, Farben, Materialien usw.? 6. Referenzen: Woran soll sich die KI orientieren? 7. Einschränkungen: Was soll ausgeschlossen werden? 8. Formatierung: Welche Vorgaben gibt es für Seitenformat, Bildgröße, Textaufbau und -länge usw.? Die Kunst der Promptgestaltung liegt darin, ein Gleichgewicht zwischen genügend Information für klare Anweisungen und genügend Freiraum für die KI zu finden, um kreative und nützliche Outputs zu generieren. Ein gut formulierter Prompt führt in der Regel auch zu zufriedenstellenderen Ergebnissen und weniger Frustration im Umgang mit der KI.
Meine Erfahrungen mit dem Prompting Zwar ist es gut, sich vorzubereiten und auch einen Plan zu haben, was man denn genau möchte, aber vergessen Sie trotzdem die spielerische Komponente nicht. Sie werden in diesem Kapitel noch erfahren, wie ich beim Prompting vorgehe und dass ich nicht stundenlang vorher den idealen Prompt entwickle, sondern ganz intuitiv, gepaart mit meinen Erfahrungen mit den jeweiligen Tools, an die Sache herangehe. Niemand kann das Ergebnis vorhersagen, daher macht es Sinn, einfach zu beginnen und dann nach und nach den Prompt anzupassen und zu verfeinern. Und manchmal muss man auch komplett von vorne anfangen, wenn man sich verrannt hat.
Länge und Anordnung von Prompts Beim Erstellen von Prompts ist Kürze oft der Schlüssel zum Erfolg. Ein präziser, konzentrierter Prompt ermöglicht eine klarere Kommunikation der gewünschten Idee. Dabei spielt auch die Reihenfolge der Worte eine wichtige Rolle. Sie sollte so gewählt werden, dass die Hauptelemente des Prompts hervorgehoben werden. Beginnen Sie mit dem Kern Ihrer Anfrage, und fügen Sie dann notwendige Details hinzu.
136 | Kapitel 4: Prompting für generative KI
Falls die anstehende Aufgabe sehr komplex geworden ist, empfiehlt es sich, diese in mehrere kleinere Teile aufzuteilen. Anstatt alles in einem einzigen langen Satz unterzubringen, zerlegen Sie den Prompt in mehrere, einfachere Anfragen. Dies verbessert nicht nur die Verständlichkeit, sondern ermöglicht auch eine präzisere und effektivere Bearbeitung der Anfrage. Die Gefahr ist sonst zu groß, dass vielleicht für Sie wichtige Bestandteile ignoriert und weniger ausführlich bearDie Formulierung von beitet werden. Verwenden Sie eine klare und direkte Sprache, um Prompts hilft auch bei Missverständnissen vorzubeugen. Vermeiden Sie unnötige Füllwörder kreativen Arbeit ter oder überflüssige Details, die den Fokus des Prompts verwässern könnten. Wenn Sie spezifische Informationen oder Ergebnisse benötigen, seien Sie so präzise wie möglich in Ihrer Formulierung. Nutzen Sie Aufzählungszeichen oder Listen, um mehrere Punkte oder Anforderungen klar und strukturiert zu kommunizieren. Bedenken Sie den Kontext und das Ziel des Prompts, um eine angemessene Länge und den richtigen Detailgrad zu wählen. Nehmen wir als Beispiel das Erstellen eines Kampagnenkonzepts mit ChatGPT. Das ist ein recht großes und komplexes Unterfangen, das sich in verschiedene Unterschritte unterteilen lässt. Fangen Sie mit der Zielgruppenbeschreibung an, geben Sie weitere Informationen und Ideen hinein. Setzen Sie Ihre Ziele, und bestimmen Sie, welche Maßnahmen ergriffen werden sollen. Starten Sie mit Ideen zum Kampagnenthema, Titel und dann Bildideen. Je mehr Einzelschritte Sie machen, desto eher können Sie auch innerhalb eines Schrittes mehrere Varianten erstellen lassen.
Prompts als Entscheidungshilfe im Designprozess KI zwingt uns dazu, genau zu formulieren, was wir möchten. Das hilft ungemein bei der eigenen kreativen Arbeit, und je öfter man dies übt, desto schneller kann man eigene Prompts entwickeln. Man entwickelt neue Fähigkeiten in der Ideenentwicklung und auch, die Ideen anderer zu präsentieren oder zu erklären.
Arten von Prompts Zunächst ist aber auch noch wichtig zu wissen, dass es verschiedene Arten von Prompts gibt. Diese einzelnen Prompttypen wollen wir uns nacheinander genauer ansehen. J J J J J J J
Textprompts (Text- oder Spracheingabe sowie Programmcode) Bildprompts (Bilder als Ausgangsmaterial) Text- und Bildprompts (Kombination von Text und Bild) Negativprompts (definieren, was ausgeschlossen werden soll) Parameter (schalten gewisse Funktionen frei) Emojis (alleine oder zusammen mit Text) und weitere spezifische Einstellungen, je nach Modell und UI
Einführung in das Prompting | 137
PRAXIS Promptgenerator für Bild-KI im Test Testen wir einmal den »Midjourney Prompt Generator« bei Hugging Face. Dazu habe ich einige Begriffe (der Generator versteht nur Englisch) eingetippt: »photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop«. Das Generieren geht recht schnell, und der Generator liefert einige Vorschläge für Prompts. Auswahl aus den Ergebnissen J Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop, direct wide angle view from the building windows, organic design, day time, atmospheric, dreamy, realistic, full frame, 35 mm film, photography, Gregory Crewdson, --ar 3:1 J Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop interior, by Katsuhiro Otomo, ghibli, trending on art station, hyper detailed, insanely detailed and intricate, hypermaximal Employment at Big Sur in the 1920s, the Pacific Northwest was a hotbed of European civilization. Home to the great steam engine locomotive that powered the Northwest’s railroad from wagon to train J Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop interior, 35 mm photography --ar 9:16 J Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop, cinematic composition --ar 2:1 J Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop, by Karel Thole and Mike Mignola --ar 2:3
138 | Praxis: Promptgenerator für Bild-KI im Test
J
J
J
Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop interior, crowds of people --ar 16:9 Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop, interior, roasting coffee, food photography, highly detailed Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop environment background, macro photography, intricate detail, 3-dimensional, tiny details, detail, photorealistic, high resolution, 3D, orchemic complexity, --ar 9:16
Fazit Der Generator erleichtert den Einstieg in das Prompting und bietet eine Basis für Prompts, die man nach den eigenen Bedürfnissen anpassen kann, wie das Seitenverhältnis oder andere Details. Man kann sich sehr gut inspirieren lassen, denn das Tool schlägt verschiedenste Stilrichtungen sowie Künstler und Künstlerinnen vor und fügt weitere Bausteine hinzu, die zum professionellen Prompting mit Midjourney gehören, aber nicht immer zum gewünschten Endergebnis führen. Er ist letztendlich eine Art Zufallsgenerator, der manchmal ins Schwarze trifft und Ideen liefern kann, auf die man selbst nicht gekommen wäre. Daher empfehle ich, solche Promptgeneratoren zu Beginn eines Projekts zu nutzen, wo noch keine konkreten Ideen und Richtungen vorgegeben sind. Entdecken Sie Stilrichtungen, die Sie für andere Projekte abspeichern können. Je mehr Infos Sie dem Generator geben, desto passender werden die Ergebnisse sein.
/imagine Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop, cinematic composition --ar 3:5
Textprompts für Textgeneratoren (Text to Text) Modelle wie ChatGPT, LLAMA, Neuroflash uvm. sind ideal zum Arbeiten mit Texten. Textprompts sind so unterschiedlich wie die Anwendungsfälle von Textgeneratoren selbst. Sie können aus wenigen Worten, einem einfachen Satz, Tabellen, Code bis hin zu mehreren und unterschiedlichen Datensätzen bestehen. Die beste Herangehensweise ist es, die KI so zu behandeln, als würden Sie eine Expertin oder einen Experten vor sich haben und diese/diesen mit Ihrem Anliegen briefen. Oder Sie analysieren Ihre eigenen Prozesse und bilden diese anschließend mit der KI ab. KI-generierte Texte verwenden Es ist auch möglich, sich bei der Generierung von Textprompts von der KI selbst helfen zu lassen. Bitten Sie die KI, Ihnen mehrere Fragen zu einem Thema oder einer Aufgabe zu stellen, bevor Sie mit der Generierung von Inhalten beginnen. Hier ein Beispiel, um eine komplexe Aufgabe zu beginnen und sich durch ChatGPT helfen zu lassen, einen Einstieg in das Thema zu bekommen: prompt Ich möchte für eine nachhaltige Kaffeerösterei eine 4-wöchige SocialMedia-Kampagne zum Thema Nachhaltigkeit konzipieren. Stelle mir 15 Fragen zu der Kaffeerösterei und der Kampagne, um anschließend ein Konzept zu entwickeln. Führe mich Schritt für Schritt durch den Prozess, zuerst mit Ideen für Texte, dann Bilder und Hashtags. Das Konzept benötige ich zum Schluss als Tabelle mit folgenden Spaltenvorgaben …
Die Ergebnisse der Textmodelle sind erstaunlich gut – auch ich habe schon den einen oder anderen KI-generierten Text vor lauter Begeisterung fast eins zu eins übernommen. Wer aber eine Weile mit ChatGPT und Co. gearbeitet hat, merkt irgendwann, dass die generierten Texte bestimmten Mustern gleichen, wenn man der KI keine weiteren Vorgaben wie Stil oder Art des Textes gegeben hat. Bei kurzen Texten fällt das nicht so auf, aber bei längeren Texten verwendet ChatGPT gerne immer die gleichen Floskeln, z. B. »Es ist wichtig zu beachten, dass …« oder »Zusammenfassend ist zu sagen …«. Im schlimmsten Fall sind die Texte fehlerhaft oder völlig am Ziel vorbei. Das mindert nicht nur den Lesespaß, sondern kann auch die Kundenbeziehung trüben, Haben Sie immer sollte man diese Texte einfach so übernehmen.
Ihre Zielgruppe im Sinn, wenn Sie Texte erstellen (lassen).
Die Automatisierung von Texten ist verlockend. Doch für den professionellen Einsatz empfehle ich daher dringend, die Texte zu überarbeiten und in einen einheitlichen Stil zu bringen. Sie können auch ein eigenes GPT (siehe Kapitel 5) mit selbst erstellten Texten auf Ihren Stil hin trainieren und Beispieltexte als Orientierung eingeben. Haben Sie immer Ihre Zielgruppe im Sinn, wenn Sie Texte erstellen (lassen). Prüfen Sie alles auf Richtigkeit, und geben Sie Ihren KITexten eine persönliche Note, dann haben auch andere Spaß an Ihrem Content.
140 | Kapitel 4: Prompting für generative KI
Formel für Textprompts für Textgeneratoren Hier meine Beispielformel, die sehr hilfreich ist, um sich einen eigenen Prompt zusammenzustellen: [Thema/Kontext] + [Stil/Form] + [Zielgruppe] + [Ton] + [Struktur] + [Spezifische Details] + [Länge] + [Perspektive] + [Absicht/Ziel]
Beispielprompt nach der Formel Verfasse eine erörternde Abhandlung [Stil/Form] über die Rolle der Künstlichen Intelligenz in kreativen Prozessen [Thema/Kontext] für ein Publikum von Künstlern und Kreativen [Zielgruppe], die interessiert sind, Technologie in ihre Arbeit zu integrieren. Der Text sollte erklärend und gleichzeitig inspirierend sein [Ton] und in einer klaren Struktur mit einer Einleitung zum Thema, drei Absätzen, die verschiedene Anwendungsbereiche von KI in der Kreativität beleuchten, und einer abschließenden Zukunftsperspektive organisiert sein [Struktur]. Der Text soll ca. 1.000 Wörter umfassen [Länge] und spezifische Beispiele von KI-Tools, Fallstudien von Künstlern, die KI nutzen, sowie eine Diskussion über Chancen und ethische Betrachtungen enthalten [Spezifische Details]. Verwende eine sachliche Darstellung aus der dritten Person [Perspektive], ergänzt durch Zitate von Experten [Spezifische Details], und ziele darauf ab, Kreative dazu zu inspirieren, KI als Werkzeug zur Erweiterung ihrer kreativen Möglichkeiten zu erkunden [Absicht/Ziel].
Diese Formel orientiert sich an den Anhaltspunkten aus den Prompting-Grundlagen dieses Kapitels und kann nach Belieben verändert und ergänzt werden. Die Möglichkeiten sind schier unbegrenzt. Weitere Ideen und Anwendungen von Textprompts haben Sie bereits in den Kapiteln 2 und 3 kennengelernt, und in Kapitel 5 gibt es auch noch Beispiele, wie Sie ChatGPT im Kreativalltag einsetzen können. Schritt für Schritt zum Ergebnis Ähnlich wie bei den noch folgenden Bildprompts hilft es, einen komplexen Prompt Schritt für Schritt aufzubauen. Beginnen Sie mit einem einfachen Prompt, warten Sie das Ergebnis ab, und schauen Sie, was Sie gerne anders hätten. Passen Sie den Prompt dann an, und wiederholen Sie dieses Vorgehen, bis Sie das gewünschte Ergebnis erreicht haben. Verändern Sie also ein Element des Prompts nach dem anderen, und warten Sie zunächst ab, ob die eine Änderung vielleicht schon das gewünschte Ergebnis gebracht hat. Merken Sie sich, wie die KI auf bestimmte Anforderungen reagiert, und nutzen Sie dieses Wissen für zukünftige Prompts. Bevor ich mir unnötig viel Arbeit mache, schaue ich immer, ob das Ergebnis meinen Ansprüchen genügt, und arbeite lieber nach als unnötig vor.
Einführung in das Prompting | 141
Textprompts für Bildgeneratoren (Text to Image) Das Prompting für Bildgeneratoren wie DALL-E, Midjourney, Stable Diffusion und Co. variiert je nach Modell und Benutzeroberfläche. Manche basieren auf reinem Text und Parametern, andere bieten über die Benutzeroberfläche Einstellmöglichkeiten. In Kapitel 5 zeige ich Ihnen die ersten Schritte in verschiedenen KI-Tools und gebe gezielt Tipps zum Prompting. Hier soll es eher um allgemeine Aspekte gehen, die man beim Prompting für Bild-KI beachten sollte: J J J
J
J J J J
J
Medium: Foto, Illustration, Malerei, Vektor, 3D, Digital Art, Papierkunst … Hauptmotiv: Was ist das Wichtigste im ganzen Bild? Komposition (Vordergrund, Hauptebene, Hintergrund): Wo befindet sich das Hauptmotiv? Was ist vor und hinter dem Motiv? Ist es ein Porträt oder eine Weitwinkelaufnahme? Geben Sie hier spezifische Anmerkungen zur Bildgestaltung. Details: Fügen Sie die wichtigsten Merkmale hinzu, z. B. bei Personen das Alter, Geschlecht, Beruf, Haarfarbe, Kleidung usw.; bei Illustrationen können das Angaben zu Schattierungen, Techniken usw. sein. Farben: Die Farbgebung hat großen Einfluss auf das Endergebnis. Licht: Besonders für Fotografien wichtig, das Licht hat einen großen Einfluss auf die gesamte Bildwirkung. Stimmung: Ist es gemütlich? Oder gefährlich? Emotionen und Stimmungen geben Ihrem Bild Charakter und beeinflussen die Bildwirkung. Stil: In welchem Stil soll das Bild generiert werden? Nach bekannten Künstlern und Künstlerinnen oder bestimmten Filmen? Oder Kunstepochen? Auch Bildstile (z. B. Polygon, Cyberpunk, Anime) oder bestimmte Richtungen (z. B. futuristisch, retro, hyperrealistisch) können Stilmittel sein. Format: Das Format ist der Rahmen des ganzen Bildes, und die Komposition aller Elemente richtet sich danach. Ergibt sich meist aus dem Anwendungszweck.
Formel für Textprompts für Bildgeneratoren Das ergibt folgende Formel, die Sie gerne verwenden können und auf deren Basis Sie Ihre eigenen Formeln zurechtlegen können: [Medium] + [Motiv] + [Komposition] + [Details] + [Hintergrund] + [Farben] + [Licht] + [Stimmung] + [Stil] + [Format] + [Parameter] /imagine Create a photo [Medium] featuring a variety of coffee beans and plants [Motiv] centrally arranged in the foreground [Komposition] with a coffee plantation in the background [Hintergrund]. Include coffee blossoms, coffee cherries, hill landscape organic [Details], natural colors, low contrast [Farben], moody [Stimmung], editorial style, award winning photography [Stil], high detail, photorealistic [Stil/Details] --ar 16:9 [Format/Parameter]
142 | Kapitel 4: Prompting für generative KI
Bild generiert mit Midjourney
Das Bild entspricht ziemlich genau dem, was im Prompt beschrieben wird.
Je nach Anwendung und Motiv kann wie im obigen Beispiel die Reihenfolge der Bausteine unterschiedlich sein. Je wichtiger ein Baustein ist, desto weiter vorne sollte er sich befinden. Midjourney schreibt auf seiner Webseite z. B., dass weniger Worte bedeuten, dass jedes vorhandene Wort mehr Bedeutung hat.
Spielerisch eigene Prompts entwickeln Hier möchte ich Ihnen zeigen, wie Sie in wenigen Schritten alleine oder im Team zu kreativen Prompts kommen. 1. Schauen Sie sich die Formel an, und überlegen Sie, welche Bausteine Sie davon wirklich benötigen. 2. Notieren Sie die Bausteine an einem Flipchart, auf einem Blatt Papier oder, wenn Sie online gemeinsam arbeiten, an einem virtuellen Whiteboard. Sie können es tabellarisch aufbauen oder eine Mindmap erstellen. 3. Sammeln und notieren Sie dann zu den jeweiligen Bausteinen Ideen und Stichworte, die zu Ihrer aktuellen Aufgabe passen. Alles ist erlaubt! 4. Kombinieren Sie dann die Ideen zu einem Prompt, und nutzen Sie die Bild-KI Ihrer Wahl. Gehen Sie hier intuitiv vor, und bleiben Sie experimentell. 5. Tauschen Sie einzelne Bausteine aus, um zu variieren und neue Ideen zu generieren. Vielleicht fallen Ihnen durch die generierten Bilder wieder neue Ideen ein, die Sie umsetzen möchten. Bevor Sie also an dem perfekten Satz grübeln, nehmen Sie sich einfach »Baustein für Baustein« vor und haben dann sogar gleich eine ganze Sammlung an Ideen und Stichworten, die Sie zu einem oder mehreren Prompts kombinieren können. Besonders für Teams kann dies ein wichtiger Schritt bei der Ideensuche sein. Im Prinzip ist diese Methode ein Brainstorming nach verschiedenen Kategorien.
Einführung in das Prompting | 143
PRAXIS Ein Prompt – verschiedene KI-Modelle Um zu verdeutlichen, wie unterschiedlich die Modelle arbeiten, möchte ich Ihnen zeigen, wie ein und derselbe Prompt bei den mir verfügbaren KI-Modellen funktioniert. Da die Modelle in manchen Dingen wie dem Format oder dem Stil verschiedene Eingaben verlangen (mal als Text, mal mit einem Kürzel, mal klickt man eine Schaltfläche an), werde ich den Prompt diesbezüglich abändern. Das Projekt Als Beispielprojekt wähle ich einen SocialMedia-Post für eine junge Kaffeemarke, die besonderen Wert auf Nachhaltigkeit legt und dies auch nach außen kommunizieren möchte. Daher werden wir jetzt ein Foto generieren, das zum einen ein Kaffeegetränk zeigt und zum anderen den nachhaltigen Gedanken transportiert. Der Prompt Als Nächstes gilt es, einen Prompt zu entwickeln, den man den verschiedenen KIs geben kann, um die Ergebnisse zu vergleichen. Damit alle KIs mich verstehen, habe ich den Prompt von ChatGPT auf Englisch formulieren lassen. prompt Create a photorealistic image suitable for a social media post by a trendy, ecoconscious coffee brand. The focus should be on a single cup of artisanal coffee that embodies modernity and sustainability. Scatter some organic coffee beans tastefully in the background to emphasize the authenticity of the product. The setting should evoke a sense of comfort and appeal to a young demographic, with elements that suggest a relaxed café atmosphere
where one would enjoy a peaceful coffee break. Utilize a muted and beige color palette to convey warmth and softness, with ambient lighting that creates a cozy and inviting space. The composition should be high in detail, with no people present in the shot, to keep the attention on the coffee experience itself. Ensure the image is stylized to reflect a hip, sustainable lifestyle associated with the brand’s identity.
Hier wurde bewusst auf besondere Fachbegriffe sowie Parameter verzichtet, damit der Vergleich möglichst »fair« ist. Als Format wähle ich das Quadrat, das ich je nach KI-Tool etwas anders mitteilen kann (z. B. als Parameter oder über Regler). Bei den meisten Modellen ist das Quadrat das Standardformat. Die Ergebnisse Auf der rechten Seite finden Sie die Ergebnisse aus den verschiedenen KI-Modellen, ohne den Prompt anzupassen. Ich gebe den KIs maximal drei Durchläufe und suche dann das beste Bild heraus. Je nach KI werden ein bis vier Bilder gleichzeitig generiert, bei den vier folgenden Abbildungen gebe ich daher ebenfalls an, welches Bild ich ausgewählt habe. Das hat zwar keinen großen Einfluss auf dieses Experiment, könnte aber trotzdem interessant sein. Welches Bild es in die Endauswahl schafft, ist manchmal auch Geschmacksache. Zumindest haben Sie durch KI die Möglichkeit, den Prompt entsprechend anzupassen und so nach und nach Ihr gewünschtes Bild zu erzeugen. Manche Bilder müssen eventuell noch bearbeitet werden und sind dann nutzbar, andere fallen völlig heraus.
144 | Praxis: Ein Prompt – verschiedene KI-Modelle
Midjourney, 3. Durchlauf, Bild 2 von 4
DreamStudio, 2. Durchlauf, Bild 1 von 4
Adobe Firefly, 1. Durchlauf, Bild 2 von 4
DALL-E 3 (in ChatGPT), 2. Durchlauf, Bild 1 von 2
Fazit Alle Bilder sind mehr oder weniger gut gelungen. Midjourney und DreamStudio haben hier die realistischsten Ergebnisse geliefert. Auch wenn Midjourney meinen Wunsch nach der
Farbpalette ignoriert hat, ist das Ergebnis für mich der klare Gewinner. Adobe Firefly wirkt hier sehr »künstlich« und DALL-E 3 zu weit weg von den Beschreibungen im Prompt.
Praxis: Ein Prompt – verschiedene KI-Modelle | 145
Bildprompts (Image to Image/Video/Text) Die meisten Bildgeneratoren bieten das Prompten mit Hilfe von einem oder mehreren Bildern an. Diese können zusätzlich zu Textprompts und anderen Einstellungen und Parametern genutzt werden. Folgende KI-Tools können z. B. mit Bildprompts arbeiten: Midjourney (derzeit bis zu 5 Bilder gleichzeitig), Stable Diffusion, Adobe Firefly, Chat GPT (derzeit bis zu 10 Bilder gleichzeitig), Runway. Ein Beispiel, um aus einem Bild mehrere Prompts zu erzeugen, finden Sie in Kapitel 5 im Praxisbeispiel »Konsistenter Stil mit Midjourney«. Die Anwendungszwecke von Bildprompts können ganz unterschiedlich sein: J J J J J J J
ähnliche Bilder oder Bildvarianten erstellen generierte Bilder in einer anderen KI-Anwendung weiterbearbeiten reale Personen, Tiere oder Objekte mit KI-Bildern verschmelzen lassen die Bilder beschreiben lassen (z. B. für Prompts oder für Alternativtexte, Kapitel 5) Bildbearbeitung durchführen, wie Interpolation, Hintergrundentfernung, partielle Entfernung oder Generierung von Bildinhalten, Bilderweiterung (siehe Kapitel 5) die Bilder vektorisieren (siehe Kapitel 5, Praxisbeispiel zu Vectorizer.AI) die Bilder animieren (Videos, Animationen usw., siehe Kapitel 5 – Runway)
Am meisten Kontrolle über das Ergebnis mit Bildprompts erhalten Sie, wenn Sie die Priorität bestimmen können, mit der sich der Bildprompt auf das Endergebnis auswirkt. Bildvarianten mit Image to Image erstellen Gerade zur Erzeugung von Bildvarianten oder zum Einbringen von eigenen oder generierten Bildern, um neue und ähnliche Motive zu erzeugen, kann das Bildprompting eine Herausforderung sein. Je nach Tool können Sie Bild- und Textprompts miteinander kombinieren und eines oder sogar mehrere Bilder gleichzeitig hochladen und verwenden. Leider bieten nicht alle Bild-KIs den Upload mehrerer Bilder als Bildprompt an. Midjourney ist hier noch die große Ausnahme. Um von gerade generierten Bildern Varianten zu erstellen, erhalten Sie in den gängigsten Bild-KIs direkt am Bild die Möglichkeit, Varianten davon erstellen zu lassen. Dabei dient das ausgewählte Bild als Ausgangsmaterial. Ob und wie die KI sich an dem ausgewählten Bild orientiert, ist manchmal Glückssache. Wie Sie diesen Prozess besser steuern können, lernen Sie im Abschnitt »Prompting für Fortgeschrittene« und in Kapitel 5 bei den einzelnen KI-Modellen. Um Ihnen die Möglichkeiten von Bildprompts zu demonstrieren, habe ich zwei generierte Bilder ausgesucht und möchte damit nun neue Bilder generieren. Diese Bilder werden uns außerdem durch die folgenden Bildprompts sowie Bild- und Textprompts begleiten.
146 | Kapitel 4: Prompting für generative KI
Bilder generiert mit Adobe Firefly
Zur Demonstration der Bildprompts nehme ich diese beiden mit Adobe Firefly generierten Katzenbilder.
Bilder generiert mit Midjourney
Ich lade beide Bilder in meinem eigenen Discord-Channel mit Midjourney über die Funktion /blend hoch, die ich im Chatfenster eingebe. Bis zu sechs Bilder können so miteinander vereint werden. Sie können als weiteren Parameter das Bildformat für das neu generierte Bild mit »Dimensions« angeben. Diese Funktion ist selbsterklärend und einfach anzuwenden. Ich lade also die beiden Katzen hoch und erhalte folgendes Ergebnis:
Über die Funktion /blend in Midjourney (statt /imagine ) habe ich beide Katzenbilder eingefügt. Bei dieser Funktion ist kein Textprompt möglich. Die KI hat aus beiden Bildern ein neues Bild generiert. Leider hat man keinerlei Möglichkeit, diesen Prozess zu steuern. Statt zwei Katzen habe ich nun eine Mischung aus beiden erhalten.
Einführung in das Prompting | 147
Bild- und Textprompts gleichzeitig verwenden Viele der genannten KI-Anwendungen, die Bildprompts unterstützen, können auch mit Bild- und Textprompts gleichzeitig umgehen. Dabei kann die Kombination von Bildern und Text verschiedene Ziele verfolgen, z. B. genaue Instruktionen zur Verwendung oder Anpassung des Bildes zu geben oder ein Bild als Basis für ein völlig neues Bild zu verwenden. Bilder kombinieren Beschreiben Sie im Textprompt möglichst genau, was Sie von der KI erwarten und was sie mit dem Bildmaterial machen soll. Mit Midjourney sieht das z. B. wie folgt aus (die Links zu den zwei Katzenbildern habe ich mit Platzhaltern abgekürzt):
Bilder generiert mit Midjourney
/imagine Bild1.jpg Bild2.jpg photo of a black and a white cat are sitting in one book shelf, psychedelic and pastel colors
Mehr Gestaltungsmöglichkeiten als mit /blend bietet Midjourney über /imagine mit Bildund Textprompt. Doch beide Katzen haben es nicht auf das Bild geschafft, sondern wurden in einer neuen Katze »vereint".
Mein Ziel war es eigentlich, beide Katzen auf einem Bild zu vereinen. Doch auch eine Anpassung des Prompts hat nicht zum Erfolg geführt. /imagine Bild1.jpg Bild2.jpg photo of two cats, one black and one white, are sitting in one book shelf, psychedelic and pastel colors
Da ich bei anderen Modellen nur ein Bild hochladen kann, probiere ich ChatGPT aus. Vielleicht versteht diese KI besser, was ich von ihr erwarte, und kann mir ein Bild der zwei Katzen aus den Referenzbildern erstellen.
148 | Kapitel 4: Prompting für generative KI
Bilder generiert mit ChatGPT und DALL-E 3
prompt Bild1.jpg Bild2.jpg Bitte erstelle ein einziges Foto, wo die Katzen aus beiden Bildern gemeinsam in einem Bücherregal voller antiker Bücher sitzen. Das Ganze soll fotorealistisch sein und die bunten Pastellfarben der Bilder sollen aufgegriffen werden. Orientiere dich so nah wie möglich an den Originalbildern und der Darstellung der Katzen.
Beide Katzen sind vereint. Doch leider ist das alles andere als ein Foto.
Wieder kein Katzenfoto der beiden, doch ich gebe nicht auf. Ich nehme das rechte Bild der zwei Katzen, lade es bei Midjourney als Bildprompt hoch und versuche es erneut:
Bilder generiert mit Midjourney
/imagine Bild1.jpg photo of two cats, sitting in one book shelf, psychedelic and pastel colors
Geschafft, beide Katzen sind vereint und auch noch als Foto. Zwar nicht ganz die originalen Katzen, aber mit Umwegen habe ich es geschafft, die Bilder miteinander zu vereinen.
Einführung in das Prompting | 149
Bild generiert mit Stable Diffusion über DreamStudio
Bilder verändern Mit Bild- und Textprompts kann ich auch vorhandene Bilder verändern. Besonders gute Ergebnisse habe ich mit Stable Diffusion gemacht – dafür nutze ich die Plattform DreamStudio (siehe Kapitel 5). Ich kann ein gerade mit dem Tool generiertes Bild direkt als Bildprompt übernehmen oder lade ein eigenes bzw. mit einem anderen Modell generiertes Bild als Bildprompt hoch. Als Ausgangsbild nehme ich im Beispiel ein Bild, das ich mit Stable Diffusion erstellt habe. Die Chance, dass die Änderung gelingt, ist dadurch erhöht, da ich weiß, dass das KI-Modell mit der Komplexität und Art des Bildes gut zurechtkommt.
Das Bild gefällt mir sehr gut, aber ich möchte es etwas verändern.
Es ist außerdem sehr hilfreich, den Originalprompt des Bildes parat zu haben. Der Prompt zu dem Bild war folgender: prompt photo of a person standing in front of a large, transparent screen, designing with gestures, futuristic and semi-realistic style, the human figure is dynamically and creatively depicted, surrounded by flowing, colorful design elements, while an AI in the background translates these designs into precise, technical drawings, cyberpunk style neon colors. Make it high detail, photorealistic, HDR, 4K, depth of field, f1.2
Die KI hat verschiedene Bilder erzeugt, unter anderem auch Darstellungen mit Frauen. Dieses Bild hat mir aber besonders gefallen, und daher möchte ich es nun verändern, indem ich statt dem Mann eine Frau darstellen möchte. Um dieses Bild mit Hilfe eines
150 | Kapitel 4: Prompting für generative KI
Textprompts anzupassen, übernehme ich das Bild als Bildprompt und gebe den Textprompt ein, den ich zur Erstellung des Bildes genutzt habe. Sollten Sie ein eigenes Bild hochladen, können Sie das Bild beschreiben oder eines der KI-Tools (z. B. ChatGPT oder Midjourney) nutzen, um das Bild beschreiben zu lassen. Um das Bild zu ändern, habe ich nur ein Wort im gesamten Prompt verändert. Zusätzlich habe ich die »Image strength« auf der Standardeinstellung von 35 % belassen. Wichtig ist, das Seitenverhältnis dem Ausgangsbild anzupassen, da die KI sonst dazu neigt, das Motiv einfach anzuschneiden. Hier der angepasste Prompt (als Auszug):
Bild generiert mit Stable Diffusion über DreamStudio
prompt photo of a woman standing …
Auch wenn die Hände und Arme beim Ausgangsbild und auch hier etwas deformiert wirken, hat die KI das Ausgangsbild nur minimal verändert und trotzdem meinen Wunsch erfüllt, statt einem Mann eine Frau darzustellen.
Bild- und Textprompts sind als Kombination eine gute Möglichkeit, Varianten zu erstellen. Je nach Modell hat man mehr oder weniger Einfluss auf das Verhältnis von Bildund Textprompt. Es lohnt sich, mit Bildprompts zu experimentieren und neue Wege des Promptings zu testen. Bringen Sie reale Bilder mit in Ihre KI-Bilder hinein, und lassen Sie sich überraschen, was damit passiert. In Kapitel 5 finden Sie ein ausführlicheres Tutorial im Praxisbeispiel »Bildvarianten mit Bildprompts mit Stable Diffusion«.
Einführung in das Prompting | 151
Bilder mit Adobe Firefly generiert und bearbeitet
Mit Bild- und Textprompts Bilder bearbeiten In manchen Modellen können Sie Bilder bearbeiten, z. B. indem Sie bestimmte Teile neu generieren lassen, Varianten erstellen oder das Bild erweitern. Am meisten Kontrolle geben die Tools, die zum Auswählen von Bereichen zusätzlich Textprompts ermöglichen, wie Midjourney, Adobe Firefly oder DreamStudio. Mehr dazu in Kapitel 5.
Der Mund der Dame sieht seltsam aus, daher habe ich diesen Bereich partiell bearbeitet, indem ich den Bereich ausgewählt und mit dem Prompt »Lips« verändert habe.
Prompting mit Emojis
Bild links mit DreamStudio, rechts mit DALL-E 3 generiert
Einige KI-Modelle verstehen Emojis als Promptsprache – eine andere Art von Textund Bildprompt. Zwar gleicht das Prompten mit Emojis einem Zufallsgenerator, aber Sie können für mehr Kontrolle mit zusätzlichen Textprompts und Parametern arbeiten.
In diesem Beispiel habe ich und benutzt, um diese Art des Promptings auszu probieren. Die Ergebnisse sind sehr unterschiedlich, können aber inspirierend sein.
152 | Kapitel 4: Prompting für generative KI
Prompting für Fortgeschrittene Die im Folgenden behandelten Begriffe und Parameter sowie weitere Bestandteile von Prompts beziehen sich hauptsächlich auf Bild-KI-Modelle, die durch deren Einsatz stark profitieren und somit mehr Kontrolle über das Ergebnis versprechen. Je nach Modell können sich diese Einstellungen ähnlich oder ganz anders auswirken. Doch die gängigen KIs arbeiten auf der Basis ähnlicher Parameter und Token-Strukturen.
Token – Struktur und Limit im Prompting In der künstlichen Intelligenz und insbesondere in der Sprachmodellierung sind Token die grundlegenden Bausteine der Eingabe- und Ausgabedaten. Ein Token kann ein Wort, ein Teil eines Wortes oder ein Satzzeichen sein. Die Anzahl der Token, die eine KI verarbeiten kann, ist begrenzt, was bedeutet, dass sowohl Ihre Anweisungen als auch die Antworten der KI nicht zu lang sein sollten. Bei ChatGPT z. B. orientiert sich die Grenze am jeweiligen Abo, das Sie gewählt haben. Eventuell haben Sie schon einmal erlebt, dass der gerade generierte Text plötzlich mitten im Satz aufhört. Dann war wohl das Token-Limit erreicht. Halten Sie die Anweisungen bei Bild- und Textmodellen immer einfach und klar, um gute Ergebnisse zu bekommen. Später im Kapitel wird erklärt, wie z. B. Midjourney dabei helfen kann, Ihre Bildprompts KI-gerecht zu kürzen, und welche Token in Ihren Prompts den größten Einfluss haben.
Bildgestaltung mit Fachbegriffen Nutzen Sie Ihr Fachwissen, um Ihre Bilder auf ein nächstes Level zu bringen. Probieren Sie folgende spezifischen Elemente in Ihrem Prompt aus, und schauen Sie, ob die KI Ihre Wünsche umsetzen kann: J J J J J
Für Fotos: Kameramodell, Linse, Brennweite, Filmmarke, Blende, Belichtungszeit … Für Illustrationen: Papierart, Malmedium, Strichführung, Schattierungen … Für Kunst: Epoche, Malstil, Künstler, Malmedium … Für 3D: Render Engine, Oberfläche, Licht, Stil, Detailgrad … Für spezielle Bildlooks: Künstler*innen, Regisseur*innen, Filme …
Schauen Sie, mit welchen Begriffen andere arbeiten und welche Ergebnisse dabei herauskommen. Legen Sie Ihr eigenes »Wörterbuch« mit Promptbegriffen an, und nutzen Sie es ebenfalls als Inspirationsquelle für das Prompten. Sie können mit einem Basisprompt beginnen und diesen anschließend mit Fachbegriffen variieren.
Prompting für Fortgeschrittene | 153
Hier ein Beispielprompt ohne viele Details zu Stilen, Farben und Co.:
Bilder generiert mit Midjourney
/imagine illustration of a woman writing a book in a creative environment
Ohne Angabe von Details gilt die maximale Gestaltungsfreiheit für die KI.
Geben wir nun die Stilrichtung (abstrakt) und das Malmedium (Wasserfarben) vor:
Bilder generiert mit Midjourney
/imagine Abstract water color illustration of a woman writing a book in a creative environment, pastel neon colors
Mit wenigen Anpassungen haben wir starke Veränderungen im Bild bewirkt.
Mit spezifischeren Prompts erhalten Sie mehr Kontrolle über das Ergebnis.
154 | Kapitel 4: Prompting für generative KI
Negativprompts KI dichtet gerne Details hinzu, die wir gar nicht im Bild haben wollten. Hier kommen die sogenannten Negativprompts zum Einsatz, die uns ermöglichen, gewisse Dinge aus dem Bild auszuschließen. Bei einigen Anbietern kann man die Stichworte in ein gesondertes Feld eintragen (z. B. bei DreamStudio oder Adobe Firefly), bei anderen wird es innerhalb des Prompts eingefügt (z. B. bei Midjourney über den Parameter --no ). Sie können bereits zu Beginn gewisse Begriffe ausschließen, oder Sie schauen zuerst, was die KI generiert, und schließen dann das aus, was nicht erwünscht ist. Zur Hilfe habe ich hier eine Liste an Negativprompts, die besonders bei der Nutzung von Stable Diffusion empfohlen werden. Sie können diese aber auch für Midjourney und Co. nutzen. Haben Sie mehrere Begriffe, können Sie diese mit Kommata trennen. Englisch
Deutsch
Ugly
Hässlich
Morbid
Morbid
Duplicate
Duplikat
Deformed
Verformt
Blurry/Blur
Unscharf/Verschwommen
Text
Text
Bad anatomy
Schlechte Anatomie
Mutation
Mutation
Missing arms/legs/fingers
Fehlende Arme/Beine/Finger
Out of frame
Außerhalb des Bildrahmens
Nude
Nackt
Watermark
Wasserzeichen
Human/people/face/hands
Mensch/Leute/Gesicht/Hände
Logo
Logo
Noise
Rauschen
Liste möglicher Negativprompts
Bei allen KI-Modellen kann es passieren, dass gerade die Darstellung von Menschen Probleme bereitet. Manchmal kann es helfen, mit gewissen Negativprompts wie »ugly, morbid, mutation, deformed human/arm/face/hand usw.« entgegenzuwirken. Manchmal baut die KI ungewollt Texte, Logos oder Wasserzeichen in die Bilder ein, Letzteres besonders, wenn man »Stockphoto« im Prompt nutzt.
Prompting für Fortgeschrittene | 155
Als Beispiel wollte ich ein Logodesign mit folgendem Prompt erstellen: /imagine make a logo design for an online shop named »minding nebula« selling digital planners, galaxy style, watercolor, colors gold and mint, black modern font
Die KI hat fast in jedem Entwurf Blumen eingefügt. Daher habe ich »flowers« als Negativprompt hinzugefügt, und es tauchten keinerlei Blumen mehr auf.
Bilder generiert mit Midjourney
/imagine make a logo simple and modern design for an online shop named »minding nebula« selling digital planners, galaxy style, nebula and stars, colors gold and mint, black modern font --no flowers
Links das Ergebnis aus dem Prompt ohne Negativprompt, rechts mit dem Negativprompt, der Blumen zukünftig ausschließt
Das Beispiel zeigt, dass die KI Blumen hinzugedichtet hat, obwohl andere Bildelemente gewünscht waren. Daher ist die Möglichkeit, gewisse Begriffe und Motive auszuschließen, eine Bereicherung für jeden KI-Workflow.
Tipps zum Negativprompten Wenn Sie mit Negativprompts arbeiten möchten, geben Sie ein Wort nach dem anderen ein, und generieren Sie zwischendurch neue Bilder, um zu sehen, welchen Einfluss die einzelnen Negativprompts haben. Nicht immer führen die ersten Versuche zum gewünschten Erfolg. Versuchen Sie es mit Synonymen oder ähnlichen Begriffen – mit etwas Geduld finden Sie einen guten Weg zwischen Prompt und Negativprompt.
156 | Kapitel 4: Prompting für generative KI
Parameter Parameter sind Einstellungen, die zusätzlich zu einem Prompt weiteren Einfluss auf das Ergebnis des Bildes haben können. Jedes Modell hat seine eigenen Parameter, doch manche Begriffe und Einstellmöglichkeiten finden Sie in fast allen gängigen Modellen. Die wichtigsten Parameter sind: J J J J J J
J J J
Seitenverhältnis (Aspect Ratio, in allen Modellen wählbar) Auflösung der Bilder (meist in Pixeln angegeben) Upscale (manche Modelle bieten internes Interpolieren der Bilder an) Anzahl der generierten Bilder (auch Batch Size, Image Count) Seeds (einzigartige Kennzahl eines jeden Bildes) Qualität (auch Quality, Generation Steps, Stop – legt fest, wie viel Zeit oder Schritte für das Generieren der Bilder aufgewendet werden soll, beeinflusst die Qualität und den Detailgrad der Bilder) Versionen (verschiedene Versionen können einen Einfluss auf das Endergebnis haben) Style/Inhaltstyp (manche Modelle ermöglichen die Einstellung, ob es sich hier um ein Foto, ein Kunstwerk, eine Grafik oder andere Stile handelt) Weight/Gewicht (Gewichtung eines Text- oder Bildprompts)
Nicht jedes Modell unterstützt alle Parameter – daher habe ich Ihnen hier die Links zu den jeweiligen Ressourcen zu den Modellen im Buch aufgelistet, damit Sie nachschauen können, mit welchen Parametern Ihr Modell der Wahl arbeitet. URL
KI-Modell
docs.midjourney.com/docs/parameter-list
Midjourney
beta.dreamstudio.ai/prompt-guide
DreamStudio
stable-diffusion-art.com/know-these-importantparameters-for-stunning-ai-images
Stable Diffusion
helpx.adobe.com/de/firefly/using/text-to-image.html# photo-settings
Adobe Firefly (KameraParameter)
Links zu den Parameterlisten der Modelle
Wie bei allen Teilen eines Prompts ist beim Anwenden der Parameter die Empfehlung, Schritt für Schritt Einstellungen zu machen, zu generieren und weitere Anpassungen zu machen. Mit etwas Geduld und Ausdauer haben Sie ein Gefühl für die Auswirkungen auf Ihr Bild, die jeder Parameter mit sich bringt. Jedes Bild ist anders, daher kann ein Parameter für ein Bild sehr gut funktionieren, für ein anderes wiederum nicht.
Prompting für Fortgeschrittene | 157
Parameter können ein wichtiger Bestandteil Ihres Prompts werden, da sie Ihnen je nach Modell und Funktion mehr Kontrolle geben können. Manche KI-Modelle bieten weitere Parameter an, wie Kameraeinstellungen (Adobe Firefly). Das bedeutet nicht, dass Sie bei anderen Modellen nicht mit solchen Angaben arbeiten können. Daher lohnt sich ein Blick in die Ressourcen und Beispiele der jeweiligen Anbieter. Seitenverhältnisse Das Standardformat für KI-Bilder ist meistens 1:1, also quadratisch. Da dieses Format nicht für alle Anwendungszwecke passt, sollte immer vor dem Generieren von Bildern das passende Endformat ausgewählt werden. Bei einigen KIs kann man das über Regler (Stable Diffusion) oder Dropdown-Menüs (Adobe Firefly) auswählen, bei anderen muss man es im Textprompt als Parameter angeben (z. B. bei Midjourney, wenn man es über den Discord-Server verwendet). Als kleine Hilfe habe ich Ihnen die gängigsten Seitenverhältnisse und ihre Anwendung aufgelistet. Sollte das gewünschte Format in Ihrem KI-Modell der Wahl nicht auswählbar sein, wählen Sie einfach das, was dem am ähnlichsten ist, und schneiden es zu oder erweitern das Bild entsprechend. Verhältnis
Anwendung
1:1
Quadratisch, häufig verwendet für Profile in sozialen Medien, Icons
4:3/3:4
Klassisches Format für Fernseher und Monitore, auch iPad-Bildschirme
3:2/2:3
Standard für 35-mm-Film und viele Vollformat-Digitalkameras
16:9
Widescreen-Format, Standard für HDTV, YouTube und Monitore
16:10
Etwas höher als 16:9, wird oft bei Computermonitoren und Tablets verwendet
5:4
Porträtformat, wird für hochformatige Instagram-Posts verwendet
5:7/7:5
Perfekt für das DIN-A-Format (getestet mit DIN A4)
9:16
Vertikales Videoformat, verwendet für Smartphone-Videos und Storys in sozialen Medien
21:9/9:21
Ultrawide-Monitore, praktisch für Bilder im Bereich Gaming
Liste der Seitenverhältnisse mit Anwendung
Natürlich gibt es noch mehr Seitenverhältnisse – aber das sind die gängigsten ihrer Art. Beachten Sie, dass die erste Zahl immer die Breite angibt, die zweite Zahl die Höhe. Möchten Sie also ein Querformat, ist die erste Zahl größer als die zweite, und beim Hochformat ist es umgekehrt.
158 | Kapitel 4: Prompting für generative KI
Auflösung der Bilder und Upscaling Die verfügbare Auflösung der generierten Bilder kann, wie Sie in Kapitel 3 gelernt haben, einer der wichtigen Eckpfeiler bei der Auswahl eines KI-Modells für den professionellen Gebrauch sein. Die Standardauflösung hängt von den einzelnen Modellen ab und wird stetig erhöht, bzw. je nach Zahlmodell erhält man noch höhere Auflösungen als bei kostenlosen Modellen. Bei DreamStudio kann man z. B. die gewünschten Pixelmaße eingeben, was natürlich etwas mehr Credits kostet. Bei anderen Modellen können Sie beim Download eine höhere Auflösung wählen oder die Bilder innerhalb des Modells hochskalieren. Prüfen Sie immer, mit welcher Auflösung oder Upscaling-Methode die jeweiligen Modelle arbeiten und ob Ihnen durch das interne Hochskalieren nicht zu viele Details verlorengehen. Meistens bewährt es sich, in der Standardauflösung zu exportieren und mit einem externen Skalierungsprogramm wie Magnific AI zu arbeiten (siehe Kapitel 5), bei dem Sie mehr Einfluss auf das Endergebnis haben. Anzahl der generierten Bilder Bei manchen Modellen können Sie beeinflussen, wie viele Bilder gleichzeitig generiert werden sollen. Bei Midjourney und Adobe Firefly sind es derzeit vier Bilder. Bei DreamStudio kann man über einen Regler 1–10 Bilder gleichzeitig generieren lassen (zu höheren Kosten und es dauert länger). Wählen Sie bei den ersten Versuchen eine geringe Zahl, um einen Prompt zu testen und eventuell Kosten zu sparen. Im Kreativprozess kann es jedoch hilfreich sein, gleichzeitig mehrere Varianten zu erhalten. Seeds In Bildgeneratoren wie Midjourney und DreamStudio (Stable Diffusion) sind »Seeds« (dt. Samen) eine Art digitaler Fingerabdruck oder Startwert, der den Prozess der Bildgenerierung beeinflusst. Der Seed ist eine Zahl, die verwendet wird, um den Zufallszahlengenerator des Bildgenerators zu starten, und die Sie von der Seeds sind die KI nach der Bildgenerierung eines jeden Bildes erhalten.
digitalen Finger abdrücke eines generierten Bildes
Diese Zufallszahlen sind entscheidend für die Erstellung eines Bildes bzw. des Bildrauschens zu Beginn der Bildgenerierung. Sie ermöglichen Konsistenz bei der Wiederholung und Variation bei der Neuerstellung von Bildern. Wenn Sie denselben Seed in demselben Bildgenerator erneut verwenden, erhalten Sie das gleiche Bild. Das ist hilfreich, wenn Sie ein Bild reproduzieren oder leichte Modifikationen eines vorherigen Bildes vornehmen möchten. Der Seed ist aber keine Garantie für einen durchgängigen Stil. Im folgenden Praxisbeispiel sowie in Kapitel 5 unter »DreamStudio by stability.ai« und »Midjourney« finden Sie konkrete Anwendungsbeispiele für Seeds.
Prompting für Fortgeschrittene | 159
PRAXIS Seeds und ihren Einfluss auf das Ergebnis verstehen Um den Seed zu erhalten, müssen wir zunächst ein Bild generieren. Beginnen wir in Midjourney mit einem Prompt: /imagine Photo, organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop, interior, roasting coffee, food photography, highly detailed
Gleicher Prompt, vier neue und unterschiedliche Bilder
Reagieren Sie im Discord-Server auf ein generiertes Bild mit einem Briefumschlag-Emoji , und Sie erhalten in einer privaten Nachricht den Seed des Bildes.
Als Ergebnis erhalten wir vier verschiedene Bilder.
Lassen wir ein und denselben Prompt erneut durchlaufen, erhalten wir jedes Mal vier neue Bilder. Es ist komplett unmöglich, auf diese Art und Weise mit dem gleichen Prompt das gleiche Ergebnis zu erhalten. Allerdings erhält jedes neue Bild einen eigenen Seed, der per Zufall zugeordnet wird. Mit diesem Seed kann ein Bild wiedererkannt werden. Daher kann es praktisch sein, den Seed eines Bildes zu kennen, um damit weiterzuarbeiten.
Lassen wir uns den Seed der zweiten Generierung geben, erhalten wir den Wert 1194431183. Wenn Sie jetzt den Ursprungsprompt in Midjourney eingeben und den Seed mit --seed 1194431183 ergänzen, erhalten Sie exakt das Bild, das Sie hier oben sehen. Probieren Sie es einmal aus! Sobald wir nun etwas an dem Prompt ändern, erhalten wir wieder komplett neue Bilder. /imagine Photo, a man working in an organic coffee roastery, coffee beans, barista coffee drink, cozy and nice coffee shop, interior, roasting coffee, food photography, highly detailed --seed 1194431183
160 | Praxis: Seeds und ihren Einfluss auf das Ergebnis verstehen
/imagine Photo, barista coffee drink, organic coffee roastery, coffee beans, cozy and nice coffee shop, interior, roasting coffee, food photography, highly detailed --seed 1194431183
Gleicher Seed, anderer Prompt
Der Prompt hat trotz des Seeds wesentliche Änderungen am Bild verursacht. Zum Vergleich der Prompt ohne Seed. Der Seed hatte also kaum Einfluss auf das obere Bild.
Ähnlicher Prompt, gleicher Seed
Das Ergebnis ist wieder näher am Ursprungsbild (dessen Seed wir genutzt haben) mit trotzdem signifikanten Änderungen. Fazit Seeds haben weniger starken Einfluss auf das Generieren weiterer Bilder als von manchen vermittelt. Sie können praktisch sein, kommen aber in meinem Arbeitsalltag selten zum Einsatz. Dieses Praxisbeispiel sollte demonstrieren, wie hoch der Einfluss des Prompts gegenüber dem Seed ist. Mehr zu Seeds in Midjourney docs.midjourney.com/docs/seeds Gleicher Prompt ohne Seed
Doch was passiert, wenn wir den Ursprungsprompt nehmen und nur die Reihenfolge etwas ändern?
Praxis: Seeds und ihren Einfluss auf das Ergebnis verstehen | 161
Qualität Die Qualität ist bei den meisten Modellen standardmäßig auf dem Maximum. Doch manche KIs bieten die Möglichkeit, die Qualität zu beeinflussen, indem die Serverzeit gekürzt oder die Anzahl an Schritten im Generationsprozess verringert wird. Die Gründe für solch eine Herabstufung können unterschiedlich sein, z. B. wenn Sie zunächst testen wollen und nur eine begrenzte Auswahl an Credits oder Serverzeit zur Verfügung haben (siehe z. B. Kapitel 5 – DreamStudio). Diese »niedrigere« Qualität kann bei manchen Bildern zu einer Verbesserung des Ergebnisses führen, beispielsweise bei Illustrationen, die nach Ihrem Geschmack zu viele Details enthalten. Nehmen wir als Beispiel diesen bereits verwendeten Prompt:
Bilder generiert mit Midjourney
/imagine Abstract water color illustration of a woman writing a book in a creative environment, pastel neon colors --quality .25
Die Bilder wirken nun auf das Wesentliche reduziert und kommen einem realen Aquarell näher.
Versionen und Modelle Die KI-Modelle haben allein im Jahr 2023 mehrere Entwicklungsstufen durchlaufen. Dadurch sind verschiedene Modellversionen entstanden, die jeweils eigene Stärken (und Schwächen) haben. Es lohnt sich zu schauen, welche Modelle/Versionen für welche Anwendungszwecke besser geeignet sind. Bei Modellen wie Midjourney, Stable Diffusion oder Adobe Firefly sind frühere Versionen sehr gut im Generieren von Illustrationen, neuere Modelle sind besser im Generieren von fotorealistischen Bildern. Es muss nicht zwangsläufig die neueste sein, die für die besten Ergebnisse sorgt. Bei manchen Modellen ist die Auswahl der Version hinter dem Begriff »Style« versteckt, was wir uns im nächsten Absatz genauer anschauen werden.
162 | Kapitel 4: Prompting für generative KI
Style/Inhaltstyp Adobe Firefly oder DreamStudio bieten im User Interface die Möglichkeit, einen Stil bzw. Inhaltstypen wie »Foto« oder »Illustration« uvm. auszuwählen. Diese Voreinstellung kann das Endergebnis erheblich beeinflussen. Andere Modelle wie Midjourney bieten solche Parameter über die Prompts oder die Auswahl des jeweiligen Modells an. Manchmal braucht es aber auch beides: Auswahl des Typs/Styles und Erwähnen im Prompt, um zum besten Ergebnis zu kommen. In dem Bildgenerator von DreamStudio kommt das Wählen eines »Styles« dem Einstellen eines Modells sehr nahe. Solche Versionen eines Modells sind auf unterschiedliche Bildstile trainiert worden. Hier ein Beispiel mit dem bereits bekannten Prompt und verschiedenen Stilen: prompt illustration of a woman writing a book in a creative environment, pastel
Bilder generiert mit DreamStudio
neon colors
Beim linken Bild wurde »Isometric« und beim rechten »Line Art« als Style gewählt.
Weight/Gewicht Bei DreamStudio können Sie mit Hilfe von Reglern oder einem Zahleingabefeld die Gewichtung von Text- und Bildprompts beeinflussen. Midjourney ermöglicht es über bestimmte Prompteingaben bzw. Image Weight, Einfluss auf das Ergebnis zu nehmen. Auch einzelne Token (Wörter) können unterschiedliche Gewichtungen erhalten. Da jedes KI-Modell etwas anders arbeitet, finden Sie die Angaben zur Gewichtung bei den jeweiligen Anbietern. Im Buch finden Sie außerdem ein paar Beispiele zu den gängigsten Modellen und deren Möglichkeiten in diesem Kapitel und in Kapitel 5.
Prompting für Fortgeschrittene | 163
Weitere Prompttechniken und Ideen Je tiefer Sie sich in das Prompting einarbeiten, desto mehr Möglichkeiten finden Sie, Prompts nach Ihren individuellen Wünschen anzupassen und zu beeinflussen. Einige Modelle bieten noch weitere Möglichkeiten des Promptens, unter anderem Interpunktionszeichen, Zahlenwerte oder die zufällige bzw. chaotische Generierung mit Midjourney. Hier stelle ich Ihnen einige dieser interessanten Techniken und Ideen vor und zeige, wie Sie sie einsetzen können.
Promptinspirationen zum Download Lassen Sie sich von anderen inspirieren, wenn es um das Formulieren von Prompts geht. Bei jedem Anbieter und jeder Plattform gibt es meist Beispiele inklusive Prompt zu sehen. Midjourney und Stable Diffusion haben ganze Communitys, bei denen es um den Austausch und das Prompting geht. Je mehr Beispiele Sie kennenlernen und auch selbst ausprobieren, desto mehr verstehen Sie, wie die einzelnen KI-Modelle arbeiten. Als Hilfe erhalten Sie für die meisten Bilder dieses Buchs die zugehörigen Prompts, die Sie gerne selbst ausprobieren können. Zudem habe ich Ihnen für den Einstieg eine Sammlung an Promptbegriffen zusammengestellt. Scannen Sie einfach den QR-Code, oder gehen Sie auf rheinwerk-verlag.de/5793. Im Kasten unter »Materialien« finden Sie die PDF-Dateien.
Interpunktionszeichen, Zahlenwerte & Co. verwenden Modelle wie Stable Diffusion oder Midjourney arbeiten mit Interpunktionszeichen in ihren Textprompts. So werden Parameter in Midjourney immer mit -- angegeben, und eine Funktion wird mit / (z. B. /imagine ) aktiviert. Prinzipiell »verstehen« KI-Bildmodelle keine Satzzeichen oder Grammatik – es ist egal, ob Sie mit Groß- und Kleinschreibung, ganzen Sätzen oder Begriffen mit Kommata getrennt arbeiten. Doch bestimmte Zeichen können genutzt werden, um die Prompts nach Belieben anzupassen. Einige Parameter verlangen nach einem Zahlenwert (Value), wie bei der Gewichtung von bestimmten Token oder Bildern. Manchmal kann man die Zahlenwerte direkt eingeben, manchmal stellt man diese mit Hilfe eines Reglers ein. Sie können je nach Plattform Satzzeichen wie Klammern ( [ { , Trennstriche | , Plus- und Minuszeichen + - sowie Doppelpunkte : zum Manipulieren des Textprompts verwenden. In Kapitel 5 finden Sie bei den einzelnen Modellen weitere Informationen und Anwendungsbeispiele sowie Links zu weiteren Ressourcen. Nun folgt ein Beispiel, wie Sie bei getimg.ai (kostenloser Bildgenerator basierend auf Stable Diffusion, ideal für erste Versuche) gewisse Begriffe verstärken können:
164 | Kapitel 4: Prompting für generative KI
Bilder generiert mit Stable Diffusion über getimg.ai
prompt photo of an empty hall with colored smoke clouds on the floor, a ballerina dancing inside the smoke clouds, editorial photography, high detail, low light, pastel colors, f1.4, fujifilm
Links das Bild ohne Interpunktionen, rechts mit low light++++ und damit mehr Fokus auf das Licht im Bild
Chaos und Skurrilität mit Midjourney Ein bisschen Zufall und Chaos gefällig? KI fällt nichts leichter als das. Vielleicht kommen Sie so auf neue Ideen? Midjourney ist hier das Mittel der Wahl, die KI bietet mit »chaos« und »weird« mehrere Möglichkeiten, Spaß in den Kreativalltag zu bringen: J J
--chaos bestimmt, wie vielfältig die anfänglichen Rasterbilder im Vergleich zueinander sind (Werte von 0–1000) --weird beeinflusst, wie ungewöhnlich ein Bild im Vergleich zu früheren von Midjourney generierten Bildern ist, was zu einzigartigeren und unkonventionelleren Ergebnissen führt (Werte von 0–100)
Um Ihnen zu zeigen, wie sich diese beiden Parameter unterscheiden, habe ich zunächst folgenden Prompt ohne weitere Parameter eingegeben: /imagine photo of an empty hall with colored smoke clouds on the floor, a ballerina dancing inside the smoke clouds, editorial photography, high detail, low light, pastel colors, f1.4, fujifilm
Jedes Mal, wenn ich diesen Prompt benutze, erhalte ich sehr ästhetische Bilder, die eine wunderschöne Ballerina in einer mehr oder weniger luxuriösen Umgebung zeigen, die in einem pastellfarbenen Nebel steht oder tanzt.
Prompting für Fortgeschrittene | 165
Bilder generiert mit Midjourney
Links das Bild ohne Parameter, rechts mit --weird 400 völlig neu interpretiert
Das rechte Bild wirkt unscharf und ungenau, aber ist erfrischend anders im Gegensatz zu den meist sehr ausdrucksstarken Bildern der KI.
Bilder generiert mit Midjourney
Probieren wir einmal Chaos aus und wie sich beide Parameter zusammen verhalten:
Links mit --chaos 70 und rechts mit --chaos 100 und --weird 1000
Midjourney selbst empfiehlt, mit niedrigeren Werten zu beginnen und sich dann nach oben oder unten heranzutasten. Das letzte Beispiel ist natürlich extrem in der Kombination beider Werte auf vollem Anschlag. Trotzdem geht der ursprüngliche Bildwunsch nicht verloren. Die Ästhetik ist eine ganz andere geworden und erinnert sehr an moderne Kunst. Bringen Sie also mal etwas Chaos in den Alltag!
166 | Kapitel 4: Prompting für generative KI
PRAXIS Prompts mit Midjourney kürzen lassen Manchmal arten Prompts etwas aus oder führen nicht zu den gewünschten Ergebnissen. Wenn man ChatGPT Prompts erstellen lässt, gleichen diese eher einer Geschichte als einer klaren Anweisung. Mit /shorten und Ihrem Prompt in der Befehlszeile können Sie ihn in Midjourney ganz einfach kürzen lassen. Nehmen wir folgenden Beispielprompt: /shorten Create a photorealistic image suitable for a social media post by a trendy, eco-conscious coffee brand. The focus should be on a single cup of barista coffee that embodies modernity and sustainability. Scatter some organic coffee beans tastefully in the background to emphasize the authenticity of the product. The setting should evoke a sense of comfort and appeal to a young demographic, with elements that suggest a relaxed café atmosphere where one would enjoy a peaceful coffee break.
Die KI analysiert Ihren Prompt, hebt die wichtigen Begriffe hervor und streicht die, die am wenigsten Einfluss auf das Ergebnis haben werden. Darunter finden Sie fünf Promptvorschläge, mit denen Sie direkt fortfahren oder die Sie sich herauskopieren und anpassen können. Wie man beim folgenden Ergebnis sieht, werden einige Begriffe beachtet, die eventuell gar nicht so wichtig sind, und dafür wichtige völlig unbeachtet gelassen. Besonders der letzte Satz scheint gar keine Rolle mehr für das Ergebnis zu spielen.
Important tokens Create a photorealistic image suitable for a social media post by a trendy, eco-conscious coffee brand. The focus should be on a single cup of barista coffee that embodies modernity and sustainability. Scatter some organic coffee beans tastefully in the background to emphasize the authenticity of the product. The setting should evoke a sense of comfort and appeal to a young demographic, with elements that suggest a relaxed café atmosphere where one would enjoy a peaceful coffee break.
Shortened prompts 1. Create a photorealistic image suitable for a social media post by a trendy, ecoconscious coffee brand. The focus should be on a single cup of barista coffee, modernity and sustainability. Scatter, beans, background, authenticity of the product 2. Create a photorealistic image suitable for a social, post by a trendy, eco-conscious coffee brand. The focus should be on a single cup of barista, sustainability, beans, background, product 3. Create a photorealistic image suitable, eco, coffee brand. The focus, single cup of barista, sustainability, beans, background, product 4. photorealistic image, eco, brand. The focus, single cup of barista, beans, background 5. photorealistic, brand, cup of barista, beans Die Prompts haben verschiedene Kürzungsstufen und zeigen sehr gut, welche Begriffe bei solch langen Prompts »hängenbleiben« und welche nicht.
Praxis: Prompts mit Midjourney kürzen lassen | 167
Klicken Sie anschließend auf »Show Details«, erhalten Sie eine Analyse nach Relevanz der jeweiligen Token. Das hilft sehr dabei, zu erkennen, was die KI »wahrnimmt« und was nicht. Natürlich können Sie diesen Prompt anschließend auch in anderen Modellen testen und nach Belieben anpassen, sollten Ihnen wichtige Details weggekürzt worden sein.
Probieren wir einen gekürzten und von mir angepassten Prompt aus: /imagine Photo of a single cup of barista coffee, focus on the cup, ecological coffee brand, coffee beans in the background, photorealistic
Diese Grafik zeigt die Gewichtung der Token, die für die KI als mehr oder weniger relevant eingestuft wurden.
Mit dem angepassten Prompt habe ich nun ein Bild erhalten, das meiner eigentlichen Idee entspricht.
Der Prompt hat ungekürzt zu folgendem Bild geführt. Das ist ganz okay, aber wollten wir nicht ein Bild von einer Tasse Barista-Kaffee haben, um die einige Bohnen verteilt sind?
Fazit Prompting ist eine Mischung aus den richtigen Begriffen (Token) und leider auch etwas Zufall. Sollten die Ergebnisse nicht ganz Ihren Wünschen entsprechen, könnte das an Ihrem Prompt liegen. Wie man hier schön sehen kann, liegt die Antwort in der Kürze und Struktur des Prompts. Die Funktion in Midjourney ist ein wahrer Game-Changer im Prompting und hilft, besser zu verstehen, wie die KI »denkt«. Hinweis: Die neueste Version (V6, siehe Kapitel 5) »versteht« jetzt mehr Token und umschreibende Wörter. Die Funktion zum Kürzen der Prompts ist allerdings derzeit nur bis Version 5.2 verfügbar.
168 | Praxis: Prompts mit Midjourney kürzen lassen
Eigenheiten der KI-Modelle nutzen lernen In meinen Versuchen mit verschiedensten KI-Modellen zur Generierung von Bildern und Texten habe ich die folgenden Eigenheiten der Modelle kennengelernt: ChatGPT zusammen mit DALL-E versteht Zusammenhänge wie kein anderes BildModell. Habe ich ein komplexeres Anliegen, gehe ich mit ChatGPT in den Dialog und schaue, wie sich meine Idee umsetzen lässt. Selbst wenn das generierte Bild im Stil nicht zu dem passt, was ich wollte, kann ich den von ChatGPT erzeugten Prompt weiterverwenden und in anderen Modellen einsetzen. Damit konnte ich schon gute Ergebnisse erlangen, ohne mir den Kopf über den perfekten Prompt zu zerbrechen. Auch Infografiken lassen sich mit dem Text-Bild-Duo leichter umsetzen. Ich nutze dieses KI-Duo sehr gerne im Ideenprozess und weniger im angewandten Design. Midjourney ist ein sehr starkes Modell und hat »Talent« in verschiedensten Bereichen wie Illustration, Design und Fotografie. Es bietet sehr viele Möglichkeiten zur Gestaltung und Einflussnahme auf den Generierungsprozess. Schaut man genau hin, hat die KI manchmal Probleme mit feinen Strukturen wie Sand, Körnung oder Verläufen – was in der neuen Version allerdings stark nachgebessert wurde und nun manchmal etwas zu überschärft und detailreich wirkt. Möchte man etwas ganz Schlichtes generieren, hat man es mit diesem Modell gelegentlich schwer – es werden immer wieder unnötige Details und Elemente hinzugefügt. Hier lohnt sich der Blick in den Style RAWModus. Generiert man mehrmals mit demselben Prompt, erhält man fast immer völlig unterschiedliche Bilder, auch wenn man gerne ähnliche Ergebnisse haben möchte. Doch nimmt man diese unerwarteten »Geschenke« mit in den Kreativprozess, kommt man wiederum auf ganz neue Ideen. Stable Diffusion hat seine Stärken im illustrativen Bereich, besonders bei Digital Paintings. Aber auch bei Fotos erhält man sehr gute Ergebnisse, besonders beeindruckt bin ich von Foodfotos aus diesem Modell. Die Stärke bei der Nutzung dieses Modells ist es, dass ein und derselbe Prompt im Gegensatz zu Midjourney oft sehr ähnliche Ergebnisse bringt, was sehr praktisch ist, wenn man nur Kleinigkeiten anders haben möchte. Auch Personen sehen innerhalb des Generierungsprozesses mit demselben Prompt sehr ähnlich aus, auch wenn man den Prompt etwas verändert. Was hinderlich ist, wenn man ganz neue Bilder generieren möchte, kann beim Erstellen von Bildvarianten sehr praktisch sein. Adobe Firefly ist seit dem Update im Oktober 2023 ein Modell geworden, das man definitiv professionell einsetzen kann. Besonders die Fotoeinstellungen bringen sehr gute und kontrollierbare Ergebnisse. Auch hier sind mit demselben Prompt oft ähnliche Ergebnisse zu erwarten, was man sich, wie bei Stable Diffusion, zunutze machen kann. Es wird in naher Zukunft definitiv noch weitere Neuerungen und Möglichkeiten in der Welt der generativen KI geben.
Prompting für Fortgeschrittene | 169
/imagine a scene from the cartoon movie Alice in Wonderland directed by Walt Disney, showing a scene from the future of a female graphic designer working with futuristic tools and artificial intelligence, photorealistic, high detail --ar 16:9
KAPITEL 5
KI-Programme im Kreativalltag
KAPITEL 5
KI-Programme im Kreativalltag Es wäre eine unmögliche Aufgabe in einem analogen Buch (wenn nicht überhaupt), die täglich wachsende Anzahl an KI-Tools vollständig aufzulisten. Deshalb werden wir uns hier auf die größten Anbieter und deren KI-Modelle konzentrieren, da sie besonders für den Einstieg geeignet sind und wahrscheinlich am beständigsten auf dem Markt sein werden. Diese Modelle haben in den letzten Monaten große Fortschritte gemacht: Die Qualität des Outputs und ihre Benutzerfreundlichkeit wurden stark verbessert. Ich zeige Ihnen die marktführenden KI-Programme und einige weitere, mit denen ich bisher die besten Ergebnisse in verschiedenen Bereichen meines Workflows erreicht habe. Sie lernen die wichtigsten Funktionen kennen und erhalten Ideen, wie Sie diese in Ihrem Kreativalltag nutzen können. Bevor Sie mit diesem Kapitel beginnen, ist es sinnvoll, Kapitel 4 über das Prompting gelesen zu haben, da dort bereits einige Möglichkeiten und Funktionen gezeigt wurden und dieses Kapitel darauf aufbaut.
Midjourney Einer der wohl bekanntesten Bildgeneratoren ist Midjourney, gegründet von einem Forschungsteam aus den USA und nun kommerziell betrieben durch die gleichnamige Midjourney Inc. Im Laufe der letzten Monate hat sich die Qualität der Ergebnisse noch einmal enorm verbessert. Mit Midjourney können sehr fotorealistische Bilder sowie Pixelbilder aller Art erstellt werden. Den Bildern und Prompts in diesem Buch liegt – wenn nicht anders angegeben – die Version 5.2 in der Nutzung über den DiscordServer zugrunde.
Zugang zur KI Die Nutzung von Midjourney erfolgt derzeit (siehe Kasten »Midjourney Alpha«) über Discord – einen Onlinedienst zur Kommunikation mit anderen über Text, Sprache und Video. Sie benötigen also zunächst einen Account für Discord und können dann über den Browser sowie über auf Rechner, Tablet oder Smartphone installierte Apps auf
172 | Kapitel 5: KI-Programme im Kreativalltag
Midjourney zugreifen. Es gibt einen eigenen Midjourney-Discord-Server, auf dem Sie viele Infos, Ressourcen, Support und offene Channels zur Bildgenerierung finden. Wer richtig einsteigen möchte, braucht ein Abo, mit dem man Serverzeit und je nach Modell verschiedene weitere Rechte und Möglichkeiten erwirbt. Ist die Zeit aufgebraucht, erhält man eine Info und kann weitere Zeit hinzukaufen. Sie können sich einen eigenen Channel erstellen, über den Sie selbst (oder Eingeladene) Zugriff auf die KI haben. Andere User sehen – je nach Vertragskonditionen – nicht, was Sie hier generieren. Wie das alles geht, erfahren Sie gut dokumentiert auf der Webseite von Midjourney. Der Nachteil ist, dass sich alles in der englischen Sprache abspielt, sowohl die Dokumentation, die Tutorials, die Community als auch das Prompting.
Midjourney Alpha – das neue Web-Interface Anfang 2024 ändert sich die Nutzung von Midjourney: Der Zugang wird erleichtert, indem Sie den Bildgenerator über die Webseite direkt nutzen können. Das Loslösen vom Discord-Server bringt mehr Komfort in der Nutzung der KI. Nach aktuellem Wissensstand werden die zahlreichen Parameter und Funktionen weiterhin ebenfalls über Kürzel mit dem Textprompt eingegeben werden können. Zusätzlich sind diese im User Interface über Schaltflächen und Regler komfortabel einstellbar. Es fällt dadurch der Befehl »/imagine« weg, der bisher jedem Prompt voransteht. Die Screenshots in diesem Buch sind noch aus der Nutzung über den Discord, da Alpha derzeit noch nicht für alle zugänglich ist. Die im Buch gezeigten Funktionen werden voraussichtlich die gleichen bleiben, aber eventuell kommen noch neue Funktionen hinzu. Auch ein Versionsupdate kam heraus (siehe Praxisbeispiel zu Version 6.0) und damit auch neue Bildlooks und Möglichkeiten im Gestalten der Bilder.
Nutzung der KI Midjourney hat bis zum Launch von Alpha kein eigenes User Interface, was etwas mehr Auseinandersetzung mit den verschiedenen Funktionen des Bildgenerators voraussetzt. Über Prompts in einen Textchat können Sie Bilder generieren und weiterverarbeiten. Hier ein paar Bereiche, für die ich Midjourney nutze: J J J J J J J J
Logoinspiration und Designvorschläge Moodboards und Farbpaletten Visualisierungen für Präsentationen Einzelbilder für Composings Motive für Plakate, Anzeigen und Kampagnen Fotos und Illustrationen für Social Media Thumbnails für YouTube und Blogartikel Texturen und Muster uvm.
Midjourney | 173
Erste Schritte mit Midjourney Um die ersten Bilder zu generieren, müssen Sie in den Textchat zunächst den Befehl /imagine in die Kommandozeile eintippen. Nun können Sie formulieren, was Sie generieren möchten. Das kann ein Satz sein, mit dem Sie Ihr Bild beschreiben, oder Sie reihen verschiedene Begriffe mit Kommata getrennt aneinander. Hier ein Beispiel: /imagine photo of a man who is sitting on a computer and making a phone call with a smartphone, pastel colors, mint and beige --ar 16:9
Diesen einfachen Prompt könnte man mit folgender Formel zusammenfassen: [Medium] + [Motiv] + [Details] + [Farben] + [Format]
Screenshot Discord-Channel mit Midjourney
Midjourney generiert vier Bilder gleichzeitig, die sich zwar häufig ähneln, aber auch sehr unterschiedlich aussehen können. Das Medium kann ein Foto, eine Illustration, ein Logo, ein Mockup oder etwas anderes sein. Gibt man kein Format an, ist das Standardseitenverhältnis 1:1. Mit --ar und dem gewünschten Seitenverhältnis geben Sie der KI den Befehl, das Bild entsprechend auszugeben. Midjourney nennt dies »Parameter«. Es gibt eine ganze Datenbank mit Parametern, mit denen Sie weitere Funktionen freischalten und somit mehr Kontrolle über das Ergebnis erhalten (docs.midjourney.com/docs).
Hier das Ergebnis aus dem Beispielprompt und wie die Bilder in Discord angezeigt werden.
174 | Kapitel 5: KI-Programme im Kreativalltag
Sind Sie nicht zufrieden mit dem Ergebnis oder möchten weitere Bilder mit demselben Prompt generieren, um eine Auswahl zu haben, dann können Sie den Prompt mit dem Button erneut durchlaufen lassen, um zu sehen, ob sich das Ergebnis zu Ihrer Zufriedenheit verändert. Midjourney generiert zwar vier einzelne Bilder, präsentiert diese allerdings zunächst als Collage in einer einzigen Bilddatei. Möchte man einzelne Bilder exportieren oder weiterverarbeiten, kann man diese mit den U-Buttons als einzelne Datei anzeigen lassen. Die Buttons U1–U4 dienen zum »Upscaling« des jeweiligen Bildes: links oben, rechts oben, links unten und rechts unten. Die Buttons V1–V4 dienen dazu, von dem jeweiligen Bild je vier neue Varianten erstellen zu lassen. Die Zuordnung ist dieselbe wie beim Upscaling.
Screenshot Discord-Channel mit Midjourney
Bilder exportieren Midjourney hat die einzelnen Bilder dieser Viererkonstellation bereits im Hintergrund in höherer Auflösung generiert. Der Klick auf U1–U4 bedeutet in diesem Schritt lediglich das Anzeigen des einzelnen Bildes in der Originalauflösung und geht daher recht schnell. Je nach Modus und Version können die Funktionen unter den Bildern anders aussehen. Klicken Sie das Bild an, um es vergrößert darzustellen, und anschließend auf »Im Browser öffnen« oder mit einem Rechtsklick auf »Bild speichern«, um es als PNG-Datei herunterladen zu können. Ich habe mich beim Beispiel für U2 entschieden und erhalte nun in der Version 5.2 (ohne einen aktivierten Modus) folgende Optionen:
Nach dem Upscaling wird das finale Bild angezeigt und man erhält weitere Optionen.
Midjourney | 175
Bild generiert mit Midjourney
Bilder variieren, skalieren und zoomen Ich kann das Bild nun stark (»Vary Strong«) oder etwas subtiler (»Vary Subtle«) variieren. Mit »Vary Region« kann ich eine bestimmte Region im Bild variieren. Midjourney hat außerdem einen eigenen Upscaler, mit dem man das Bild 2-fach oder 4-fach hochskalieren kann. Des Weiteren gibt es die Möglichkeit des Hinauszoomens (»Zoom out«), was das Bild an allen Seiten erweitern lässt. Mit den Pfeilen können Sie das Bild auch nur an einer bestimmten Seite erweitern lassen. Mit »Make Square« erhalten Sie eine quadratische Version des Bildes.
Bild generiert mit Midjourney
Dies sind die Ergebnisse aus der 2-fachen Zoomfunktion (»Zoom Out 2׫).
Das finale Bild (U4) liegt mir nun in einer Auflösung von 1.456 × 816 Pixeln vor.
176 | Kapitel 5: KI-Programme im Kreativalltag
Midjourney bietet via »Upscale« die Möglichkeit, die Auflösung zu erhöhen. Sie können diesen Schritt mehrfach hintereinander wiederholen. Achten Sie aber auf das Ergebnis – eine höhere Auflösung bedeutet nicht, dass das Bild »besser« wird. Hier ein Vergleich der verschiedenen Stufen des internen Upscalers.
Links sehen Sie das Bild mit dem U-Button einfach hochskaliert bzw. in Originalauflösung. In der Mitte habe ich »Upscale (2×)« und rechts »Upscale (4×)« verwendet. Das finale Bild liegt nun in der Auflösung 5.824 × 3.264 Pixel vor. Zwar wird die Auflösung stark erhöht, aber die Details wirken sehr glatt gestrichen.
Erweiterte Techniken im KI-Prompting Im ersten Beispiel haben Sie einen sehr einfachen Prompt gesehen, der aber schon sehr gute Ergebnisse bringt. Gehen Sie tiefer in die Gestaltung Ihrer Bilder hinein. Je offener Sie bestimmte Themen lassen, desto mehr Freiheit hat die KI. Nehmen wir das vorherige Beispiel und füllen den Prompt mit spezifischeren Angaben. Hier die Beispielformel aus Kapitel 4, die weitere Details und Ideen in den Prompt mit einbringt: [Medium] + [Motiv] + [Komposition] + [Details] + [Hintergrund] + [Farben] + [Licht] + [Stimmung] + [Stil] + [Format]
Wir geben der KI weitere Informationen und Details, um Bildaufbau und Look maßgeblich zu verändern und um mehr Kontrolle über das Ergebnis zu erhalten. Die veränderten Inhalte habe ich Ihnen fett markiert: /imagine photo of a middle aged man, blond hair and beard, wearing jeans and t-shirt, sitting on a macbook pro making a phone call with his iphone, in a bright, open and modern workspace, the sunlight comes from a window in the background, pastel colors, mint and beige, high detail, depth of field, f/1.8 --ar 16:9
Das Bild ist nun ein komplett anderes, obwohl es auf demselben »Gerüst« steht wie das erste Beispielbild des Kapitels. Doch es ist so ziemlich genau das, was im Prompt beschrieben wird. Viele User beschweren sich, dass die Bilder so sehr nach »generiert«
Midjourney | 177
Bild generiert mit Midjourney
oder »Fantasy« aussehen, doch meistens liegt es daran, dass mit den Prompts zu viel »Freiheit« gelassen wird und die KI somit gerne auf ihren Standardlook des aktuellen Modells zurückgreift.
Ergebnis aus dem neuen Prompt. Die KI hat Probleme mit der Darstellung eines telefonierenden Menschen, daher habe ich mich für ein Bild ohne Smartphone entschieden.
Einige Token, z. B. die Farben, sind mehr in den Hintergrund gerückt. Sollten Sie darauf Wert legen, können Sie versuchen, die Farben gezielter in den Prompt zu integrieren oder stärker zu gewichten (siehe Multiprompts und Prompt Weights), indem Sie das Shirt z. B. mintfarben beschreiben oder den Wänden oder dem Tisch bestimmte Farben zuweisen. Das sind alles keine Garantien für Erfolg, aber Möglichkeiten in der Gestaltung des Bildes, ohne viele Parameter und Funktionen nutzen zu müssen. Negativprompts Auch Midjourney »halluziniert« gerne und fügt Details in die Bilder ein, die eventuell unerwünscht sind. Kein Problem, dafür gibt es Negativprompts, die unerwünschte Dinge aus den Motiven ausschließen. Geben Sie als Parameter --no ein und dann die Begriffe, die Sie ausschließen möchten – bei mehreren mit Komma getrennt. In Kapitel 4 gibt es eine Liste mit Begriffen, die dabei helfen können, die Abbildung von Menschen zu verbessern. Die meisten Negativprompts ergeben sich jedoch aus der Situation heraus, wie das Entfernen von unnötigen Details in einem einfachen Verlauf: /imagine flat view background smooth gradient holographic colors, simple --no lines, shapes
178 | Kapitel 5: KI-Programme im Kreativalltag
Bilder generiert mit Midjourney
Trotz Negativprompt wurden Bilder mit Details generiert – aber auch einfache Verläufe.
Zeit sparen mit Permutationen und Promptvariationen Möchten Sie verschiedene Stile oder Farben ausprobieren, können Sie natürlich immer wieder denselben Prompt nutzen und einen Baustein austauschen – oder Sie machen das alles in einem Prompt. Dazu müssen Sie nur den Bereich, den Sie variieren möchten, in geschwungene Klammern setzen und die Alternativen mit Kommata trennen:
Bilder generiert mit Midjourney
/imagine photo of a man who is sitting on a computer and making a phone call with a smartphone, pastel colors, {mint, pink}
Midjourney hat die Prompts separiert und zu jeder Variante neue Bilder generiert.
Sie erhalten zwar nicht dasselbe Ergebnis nur mit einer anderen Farbgebung, aber sparen sich mit dieser Funktion etwas Arbeit.
Midjourney | 179
Sie können natürlich noch komplexere Kombinationen ausprobieren und damit zahlreiche Varianten eines Motivs erstellen lassen: /imagine photo of a {man, woman} who is sitting on a computer and making a phone call with a smartphone, pastel colors, {mint, pink}
Midjourney macht daraus nun vier verschiedene Prompts und stößt gleichzeitig vier Generierungsprozesse an. Das Limit ist in meiner Bezahlvariante auf diese vier Prompts gleichzeitig begrenzt. Sie können mit Permutationen Zeit sparen, die KI im Hintergrund »machen lassen« und sich in der Zeit anderen Dingen widmen. Lassen Sie sich z. B. gleichzeitig verschiedene Seitenformate ausgeben, indem Sie diese nach dem Parameter --ar in die geschwungenen Klammern setzen (z.B. --ar {1:1, 9:16} ).
Screenshot Discord mit Midjourney
Settings – Modi und Modelle einfach aktivieren und deaktivieren Geben Sie statt /imagine nun /settings in die Kommandozeile ein, erhalten Sie eine Auswahl an Funktionen und Modellen von Midjourney. Hier können Sie per Klick aktivieren und deaktivieren, müssen sich somit nicht alle Parameter und Kommandos merken und können schnell die Modi wechseln. Sie sehen an den grün markierten Schaltflächen, welche Funktionen gerade aktiv sind. Doch nicht alle Funktionen sind hier aufgelistet.
Nicht alle Modi sind veränderbar. Der »Public mode« ist beim Standardabo nicht abwählbar. Ausgewählte Modi wirken sich auf alle zukünftig generierten Bilder aus.
Mehr Realismus mit »Style Raw« Die Bilder erscheinen Ihnen zu künstlich, fantasievoll und wenig realistisch? Dann probieren Sie den RAW-Modus aus. Die KI fügt nun weniger »erfundene« Details ein und bleibt dem Prompt treuer. So gehen Sie vor: Über die Settings habe ich den RAWModus mit der Schaltfläche aktiviert. Ab jetzt wird allen Prompts der Parameter --style raw hinzugefügt. Sie können den Parameter auch ohne Modus nutzen und im Prompt einfach anfügen. Hier habe ich den Prompt mit den Permutationen im RAW-Modus ausprobiert:
180 | Kapitel 5: KI-Programme im Kreativalltag
Bilder generiert mit Midjourney
Die Bilder wirken im Vergleich zu denen ohne RAW-Modus weitaus realistischer.
Screenshot aus Midjourney nach dem Klick auf »Vary Region«
Remix-Modus und Vary Region kombinieren für mehr Kontrolle Wenn Sie »Vary Region« nutzen möchten, empfehle ich Ihnen, über /settings oder über /prefer remix den Remix-Modus einzuschalten. Der Remix-Modus alleine ermöglicht es Ihnen, bei Variationen den Prompt direkt zu verändern. Das ist sehr praktisch, wenn man gerade in der Phase ist, in der man auf ein bestimmtes Ergebnis hinaus möchte. Sie werden bei jedem eines Prompts nach Änderungen gefragt. Dieser Modus ermöglicht Ihnen eine zusätzliche Prompteingabe, wenn Sie bestimmte Regionen eines Bildes variieren möchten. Aktivieren Sie den Remix-Modus, und klicken Sie bei Ihrem zuletzt oder zukünftig generierten Bild auf »Vary Region«. Sie kommen nun in folgendes Dialogfenster, um Ihr Bild gezielt anzupassen.
Nachdem die Funktion /remix aktiviert wurde, können Sie mit nicht nur eine Auswahl machen, sondern auch einen Prompt dazu eingeben.
Midjourney | 181
Bilder generiert mit Midjourney
Mit einem Lassotool oder einem Rechteckwerkzeug können Sie eine Auswahl der Region machen, die Sie anpassen wollen. Dank dem Remix-Modus haben Sie zusätzlich eine Kommandozeile, in der Sie beschreiben können, was Sie gerne verändert haben möchten. Bleiben Sie einfach und präzise. Sie erhalten vier Varianten der Änderung. Bei meinem Beispiel habe ich Folgendes eingegeben: »hand with a futuristic pen«.
Die Hand des generierten Bildes war deformiert und der Stift wirkte seltsam (links). Beim ersten Durchlauf mit »Vary Region« kamen bereits brauchbare Ergebnisse heraus (rechts).
Tipps für »Vary Region« Möchten Sie mehrere Bereiche eines Bildes verändern, gehen Sie Region für Region vor und versuchen nicht, alles auf einmal zu verändern. Sollten Ihnen die vorgeschlagenen Änderungen nicht zusagen, gehen Sie am besten zur letzten Version des Bildes und probieren Sie es erneut, eventuell mit Anpassungen im Prompt. Ein einfaches hat die Ergebnisse eher »verschlimmert«.
Multiprompts und Prompt Weights Es kann passieren, dass die KI bestimmte Begriffe im Prompt miteinander verschmelzen lässt, ohne dass man dies beabsichtigt hat. Oder ein Begriff ist zu dominant, sodass er das eigentliche Motiv verdrängt. Mit :: können Sie den Prompt in seine Einzelteile unterteilen. Zusätzlich können Sie sowohl mit positiven als auch mit negativen Werten von -2 bis 2 arbeiten, um die Gewichtung der einzelnen Promptbausteine zu bestimmen. /imagine photo of a man who is sitting on a computer::2 and making a phone call with a smartphone:: 0.5, pastel colors, mint and beige
182 | Kapitel 5: KI-Programme im Kreativalltag
Bilder generiert mit Midjourney
/imagine photo of a man who is sitting on a computer::0.5 and making a phone call with a smartphone:: 2, pastel colors, mint and beige
Links der erste Prompt mit der Gewichtung auf den ersten Teil (Mann am Laptop). Beim rechten Bild wurde der zweite Teil des Prompts stärker gewichtet (Anruf mit dem Smart phone), was dazu geführt hat, dass eine telefonierende Frau abgebildet wurde.
Bilder generiert mit Midjourney
Modell/Version wechseln Um Bilder in gewissen Stilen wie z. B. Anime zu generieren, können Sie über /settings oder Parameter das Modell wechseln. Eine Auflistung der Modelle wie auch deren StyleParameter finden Sie in der Dokumentation von Midjourney unter docs.midjourney. com/docs/model-versions. Hier ein Beispiel mit verschiedenen Modellen:
Links der erste Prompt aus diesem Kapitel mit dem Versions-Parameter --v 4 , rechts mit den Parametern --niji 5 --style scenic .
Midjourney | 183
PRAXIS Nahtlose Muster generieren Eine meiner liebsten Möglichkeiten ist das Erzeugen von nahtlosen Mustern mittels --tile am Ende des Prompts, die ich schon bei mehreren Kundenprojekten genutzt habe. Die Anwendungsmöglichkeiten sind unbegrenzt. Auf dem Midjourney-Discord-Server finden Sie im Channel »Showcase« einen »tile-showcase«, wo Sie sich von den Ideen (leider selten inklusive Prompts) anderer inspirieren lassen können. Einige meiner Muster finden Sie mit den Prompts in den folgenden vier Abbildungen. Anwendung von Mustern Erstellen Sie mit solchen Mustern Designs für Papeterie wie Geschenkpapier, Tapeten, Stoffe, aber auch für andere Produkte, wie man sie z. B. auf Plattformen wie society6.com oder redbubble.com verkaufen kann. Hier noch weitere Ideen für die Anwendung: J J J J J J
Fotohintergründe selber gestalten Webseitenhintergründe Texturen für Composings Produktdesigns Präsentationshintergründe Game-Design
Der Markt für Muster und Texturen ist groß. Auf oben genannten Online-Designmärkten sowie Etsy und Creative Market können Sie Ihre Designs verkaufen. Das kann sich durch die Masse von KI-generierten Inhalten jedoch schnell ändern. Nichtsdestoweniger spielen Muster und Texturen in der analogen wie auch digitalen Welt eine wichtige Rolle.
184 | Praxis: Nahtlose Muster generieren
Nahtlose Muster checken Die meisten Muster, die Midjourney generiert, sind tatsächlich nahtlos und bedürfen keiner weiteren Anpassung. Möchten Sie diese schnell auf ihre Nutzbarkeit prüfen, nutzen Sie pycheung.com/checker, eine Webseite zum Testen solcher Muster.
Nahtlose Muster bearbeiten Es ist nicht so einfach, ein nahtloses Muster zu bearbeiten. Selbst das Hochskalieren mit Anwendungen wie Magnific AI (siehe später im Kapitel das Praxisbeispiel »Mit Magnific AI Bilder interpolieren und verbessern«)oder das Vektorisieren mit Vectorizer.AI kann den Effekt zunichtemachen. Der erste Workaround wäre, ein nahezu perfektes Musterbild zu generieren, um gar nicht erst in die Lage zu kommen, das Bild bearbeiten zu müssen. Doch KI ist nicht immer berechenbar, und daher kann es sein, dass Sie plötzlich ein Wasserzeichen im Bild haben, so ist es mir öfter passiert. Befindet sich der Makel innerhalb des Bildrandes? Kein Problem! Direkt am Rand? Hier müssen Sie vorsichtig sein. Meine Lösung war es, mit Illustrator zu arbeiten. Dafür habe ich das Muster mit Vectorizer. AI vektorisiert (das musste ich sowieso, da das Muster für ein Thekendesign gedacht war) und in Illustrator geöffnet. Mit dem Fenster »Musteroptionen« habe ich das Muster vervielfacht und innerhalb dieser Ansicht meine Korrekturen gemacht. So konnte ich die Übergänge passgenau bearbeiten und das Muster anschließend weiterverwenden.
/imagine photorealistic flat slate texture background, high detail, dark, low contrast --tile
/imagine concrete texture, fine, middle grey, cracks --tile
/imagine photo of beautiful marble tex ture, high detail --tile
/imagine photorealistic flat::1 stone tex ture background, high detail, dark, low contrast --tile --style raw
Praxis: Nahtlose Muster generieren | 185
/imagine pattern of plants and succulents in polygon shaped cages and vases, watercolor --tile
Mit »Image Weight« Bildprompts gewichten In Kapitel 4 haben Sie gesehen, wie man mit /blend bis zu sechs Bilder in Midjourney als Bildprompt nutzen und diese miteinander »verblenden« kann. Leider hat man wenig Kontrolle über den Generationsprozess, da diese Funktion keinen Textprompt zulässt. Für mehr Kontrolle können Sie mit Bild- und Textprompts arbeiten, was das Verarbeiten von bis zu zwei Bildern ermöglicht. Die größte Kontrolle haben Sie, wenn Sie mit einem Bild, Text und der Gewichtung des Bildes arbeiten. Dafür habe ich ein Steintexturmuster als Bildprompt hochgeladen und einen Textprompt hinzugefügt. Doch die generierten Bilder weichen vom Original ab (Bild links). Zusätzlich können Sie die Gewichtung des Bildes mit dem Parameter --iw und Werten von 0.5 bis 2 beeinflussen. Im Beispiel bekommt das Steinmuster mehr Gewicht (Bild rechts).
Bilder generiert mit Midjourney
/imagine Bild.png a professional model lies on a pebble beach, natural light, editorial photography, high detail --iw 1.5
Probieren Sie verschiedene Stufen der Gewichtung aus, und schauen Sie, wie die KI reagiert. Links das Ergebnis aus reinem Text-Bild-Prompt, rechts das Ergebnis mit der Bildgewichtung von 1.5. Das Originalbild hat dadurch eine stärkere Gewichtung erhalten und beeinflusst damit den Rest des Bildes.
Image- und Promptweights kombinieren Das Ergebnis ist noch nicht nach Ihren Wünschen? Dann können Sie die Gewichtung in Bild- und Textprompt verändern (siehe »Multiprompts und Prompt Weights«). Arbeiten Sie mit Dezimalwerten (eine Nachkommastelle), um feinere Abstufungen zu wählen, und achten Sie darauf, dass sich beide Gewichtungen nicht aufheben, indem Sie gleiche Werte einsetzen.
Midjourney | 187
PRAXIS Konsistenter Stil mit Midjourney In Kapitel 4 haben wir im gleichnamigen Praxisbeispiel einen Prompt in verschiedenen Modellen getestet, und das Ergebnis von Midjourney war dem gewünschten Bildlook am nächsten. Stellen wir uns vor, wir hätten dieses Bild für einen Kunden – eine nachhaltige Kaffeerösterei – generiert und möchten für Social Media weitere Bilder im selben Stil erstellen. Doch wie Sie bereits gemerkt haben, kann ein und derselbe Prompt die unterschiedlichsten Ergebnisse hervorbringen. Wissen Sie also, dass Sie eine Reihe an Motiven im selben Stil benötigen, dann haben Sie verschiedene Möglichkeiten, an diese Sache heranzugehen.
Bildstil beschreiben lassen Sie können sich das Bild von Midjourney selbst beschreiben und sich daraus vier verschiedene Prompts generieren lassen. Geben Sie einfach statt /imagine den Befehl /describe in die Kommandozeile im Discord-Server ein. Sie werden aufgefordert, ein Bild hochzuladen. Mit einem Klick auf »Submit« erhalten Sie innerhalb von kurzer Zeit vier verschiedene Prompts zu Ihrem Bild. Die Ergebnisse sind dem Original mehr oder weniger ähnlich. Sie können natürlich auch über ChatGPT 4 eine Beschreibung des Stils machen lassen. Hier können Sie noch weitere Anweisungen hinzufügen, wie »Beschreibe mir den Stil in Form eines Prompts« oder »Erstelle eine Vorlage für einen Prompt, der den Stil dieses Bildes auf andere Bilder übertragen lässt«. Sie können die Prompts anpassen und neue Motive daraus erzeugen lassen. Experimentieren Sie mit den Beschreibungen des Stils.
188 | Praxis: Konsistenter Stil mit Midjourney
So sieht es aus, wenn Sie ein Bild über /describe hochgeladen haben und die Promptvorschläge erhalten. Sie können über die Buttons unten einzelne Prompts generieren lassen oder mit »Imagine all« alle auf einmal. Ist nichts dabei, können Sie über »Refresh« weitere vier Prompts erzeugen. Hier anschließend sehen Sie die Ergebnisse aus den Promptvorschlägen inklusive der verwendeten Prompts.
/imagine latte coffee with leaves and leaf design on a wooden table, in the style of intense and dramatic lighting, post processing, dark navy and dark brown, unreal engine 5, handsome, textural richness, dynamic and intense
/imagine coffee art cup with caffeinated coffee and plants on the dark background, in the style of matte photo, vignetting, organic, photo taken with provia, high quality photo, utilizes
/imagine a cup of coffee with a latte art on top of it, in the style of highly detailed foliage, black background, selective focus, vignetting, award-winning, organic, uhd image
/imagine coffee and plants with espresso white cup, in the style of intense and dramatic lighting, post processing, dark navy and beige, unreal engine 5, textural richness, award win ning, adonna khare
Praxis: Konsistenter Stil mit Midjourney | 189
Seeds nutzen Der Midjourney-Bot verwendet Seed-Nummern, um ein Feld visuellen Rauschens (ähnlich Fernsehstatik) als Startpunkt für die Generierung von Bildgittern zu erzeugen. Seed-Zahlen werden normalerweise für jedes Bild zufällig generiert, können aber mit dem Parameter --seed manuell festgelegt werden. Die Seed-Nummer beeinflusst nur das anfängliche Bildgitter. Die Verwendung derselben Seed-Nummer mit dem gleichen Prompt führt zu ähnlichen Endbildern.
/imagine Create a photorealistic image suitable for a social media post by a trendy, eco-conscious coffee brand. The focus should be on a single cup of barista coffee that embodies modernity and sustainability. Scatter some organic coffee beans tastefully in the background to emphasize the authenticity of the product. The setting should evoke a sense of comfort and appeal to a young demographic, with elements that suggest a relaxed café atmosphere where one would enjoy a peaceful coffee break. --no packaging --seed 39489823
Antwortet man bei einem generierten Bild mit dem , erhält man in den DiBriefumschlag-Emoji rektnachrichten die Informationen zum Seed des Bildes.
Das entstandene Bild passt im Bildaufbau zum Ursprungsbild. Das Licht und die Farbtemperatur sind anders, kommt aber dem gewünschten Look (comfort, relaxed, peaceful) näher.
Sie können die Seed-Nummer eines Jobs in Discord über eine Emoji-Reaktion finden oder sie für gerade generierte Bilder mit dem Befehl /show abrufen.
Nun möchte ich ausprobieren, ob weitere Bilder mit anderen Motiven in die Reihe passen. Generieren wir ein neues Bild mit dem Seed unserer Vorlage. Diesmal möchte ich ein Bild erstellen, in dem jemand Kaffee röstet. Seeds sind keine Garantie für den einheitlichen Look, besonders weil es sich um ein neues Motiv handelt. Sie sind lediglich eine Möglichkeit, sich an einheitliche Stile heranzutasten.
Um die Seed-Nummer zu ändern, fügen Sie einfach --seed am Ende Ihres Prompts hinzu, um den Ausgangspunkt für die Bildgenerierung zu steuern.
190 | Praxis: Konsistenter Stil mit Midjourney
/imagine A photorealistic image of a hand in the process of roasting coffee beans, capturing a close-up view. The focus is on the beans being roasted, conveying the essence of artisanal coffee making. The setting should reflect a trendy and eco-conscious vibe, using a muted color palette with ambient lighting to create an inviting atmosphere. The image is styled to appeal to a young demographic, suggesting a relaxed café ambiance. No people are visible except for the hand, keeping the focus on the coffee roasting experience, suitable for a social media post by a coffee brand. --seed 39489823
Generieren wir noch ein weiteres Bild mit demselben Seed. Der Ursprungsprompt ist der gleiche wie bei der Kaffeetasse, aber Midjourney hat noch eine Café-Situation mit einem Kunden aus der Zielgruppe generiert; davon habe ich mir einige Variationen generieren lassen. /imagine Create a photorealistic image suitable for a social media post by a trendy, eco-conscious coffee brand. The focus should be on a single cup of barista coffee that embodies modernity and sustainability. Scatter some organic coffee beans tastefully in the background to emphasize the authenticity of the product. The setting should evoke a sense of comfort and appeal to a young demographic, with elements that suggest a relaxed café atmosphere where one would enjoy a peaceful coffee break. --no packaging --seed 39489823
Das Ergebnis passt vom Stil her gut zu dem mit dem Seed generierten Kaffeebild. Beides weicht allerdings vom Ursprungsbild ab.
Prüfen Sie unbedingt immer, ob das Foto technisch korrekt ist. Manchmal sind die Details dafür entscheidend, ob das Bild glaubwürdig ist oder nicht; KI halluziniert gerne. In diesem Beispiel ist das Gerät nicht zu 100 % authentisch, doch die Bildstimmung ist perfekt für den Social-Media-Auftritt. Mit etwas Bearbeitung kann das Bild noch verbessert und dem gewünschten Bildstil angepasst werden.
Der Stil passt (mit etwas Nachbearbeitung) sehr gut zu den anderen Bildern und wird in dem Social-Media-Profil der Kaffeerösterei für Abwechslung, aber auch Einheitlichkeit sorgen.
Mehr über Seeds finden Sie unter: docs.midjourney.com/docs/seeds
Praxis: Konsistenter Stil mit Midjourney | 191
Style Tuner Der Style Tuner in Midjourney ermöglicht es Ihnen, das Aussehen Ihrer Bilder individuell anzupassen. Mit dem Befehl /tune in Verbindung mit einem Prompt erzeugen Sie eine Reihe von Beispielbildern, die verschiedene visuelle Stile basierend auf Ihrem Prompt zeigen. /tune Create a photorealistic image suitable for a social media post by a trendy, eco-conscious coffee brand. The focus should be on a single cup of artisanal coffee that embodies modernity and sustainability. Scatter some organic coffee beans tastefully in the background to emphasize the authenticity of the product. The setting should evoke a sense of comfort and appeal to a young demographic, with elements that suggest a relaxed café atmosphere where one would enjoy a peaceful coffee break. Utilize a muted and beige color palette to convey warmth and softness, with ambient lighting that creates a cozy and inviting space. The composition should be high in detail, with no people present in the shot, to keep the attention on the coffee experience itself. Ensure the image is stylized to reflect a hip, sustainable lifestyle associated with the brand’s identity.
Sie können die Anzahl der Bildpaare bestimmen, die im Style Tuner angezeigt werden sollen (16, 32, 64 oder 128), sowie den Modus für Ihre Beispielbilder (Standard oder Raw) festlegen. Für den Einstieg können Sie mit »Standard« anfangen. Geübte User, die --style raw kennen und nutzen, können den Modus ändern. Mehr Informationen finden Sie hier: docs.midjourney.com/docs/style Der Style Tuner generiert pro Stilrichtung ein Bildpaar, wobei die Anzahl der Bildpaare die Gesamtzahl der Bilder bestimmt. Sobald der Style Tuner fertig ist, wählen Sie in jeder Bildpaarreihe Ihr bevorzugtes Bild aus. Sie können
192 | Praxis: Konsistenter Stil mit Midjourney
aber auch aus einem Grid einzelne Bilder auswählen, die Ihren Stilwünschen am ehesten entsprechen. Der Style Tuner erstellt einen Code, den Sie mit dem Parameter --style zu Ihren Prompts hinzufügen können, um den Look zukünftiger Bilder anzupassen. Dieser Code kann mit jedem Prompt verwendet werden, wobei zu beachten ist, dass Stile und Prompts zusammenarbeiten, um ein Bild zu generieren, sodass sich ein Style-Code auf unterschiedliche Prompts auch unterschiedlich auswirken kann. Link zum Beispiel Sie erhalten einen Link zu Ihrem erzeugten Style Tuner. Dort können Sie nun Bildpaare auswählen und einen Style-Code generieren. Hier ist der Link zu diesem Beispiel: Style-Tuner-Code: jiDE3xUCH1gurKzh Link: tuner.midjourney.com/ndMdOGl
Ich habe 8 von 32 Bildern ausgewählt, um folgenden Style-Code zu erzeugen: --style jiDCYQrKaK4wBcoP
/imagine A photorealistic image of a hand in the process of roasting coffee beans, capturing a close-up view. The focus is on the beans being roasted, conveying the essence of artisanal coffee making. The setting should reflect a trendy and eco-conscious vibe, using a muted color palette with ambient lighting to create an inviting atmosphere. The image is styled to appeal to a young demographic, suggesting a relaxed café ambiance. No people are visible except for the hand, keeping the focus on the coffee roasting experience, suitable for a social media post by a coffee brand. --style jiDCYQrKaK4wBcoP
Das Ergebnis ist anders als aus dem Test mit den Seeds, aber dennoch sehr gut gelungen. Hier kommt die Natürlichkeit außerdem noch besser zur Geltung.
Nun möchte ich den Ursprungsprompt mit dem Style-Code kombinieren und habe diesen dazu etwas gekürzt. Die Beschreibung des Bildstils mit Farben und Co. habe ich ausgelassen, da dies nun der Style-Code übernehmen sollte. Außerdem habe ich einen Negativprompt hinzugefügt, da die KI immer wieder das Packaging statt der Kaffeetasse in den Vordergrund gestellt hat. /imagine Create a photorealistic image suitable for a social media post by a trendy, eco-conscious coffee brand. The focus should be on a single cup of barista coffee that embodies modernity and sustainability. Scatter some organic coffee beans tastefully in the background to emphasize the authenticity of the product. The setting should evoke a sense of comfort and appeal to a young demographic, with elements that suggest a relaxed café atmosphere where one would enjoy a peaceful coffee break. --no packaging --style jiDCYQrKaK4wBcoP
Dieses Bild passt sehr gut zum Stil des ersten Bildes, das mit dem Style Tuner erstellt wurde. Stimmung, Licht und sogar Materialien sind ähnlich, obwohl die Prompts unterschiedlich sind.
Fazit Es gibt verschiedene Herangehensweisen an das Thema Stil und Einheitlichkeit. Alle haben ihre Vor- und Nachteile. Was gut funktioniert hat, war, sich ein Beispielbild beschreiben zu lassen und die vorgeschlagenen Prompts zu nutzen. Seeds sind ebenfalls eine Möglichkeit, mehrere Bilder einer Serie zu erstellen. Die besten Ergebnisse hat der Style Tuner geliefert. Allgemein lässt sich sagen, dass das Ursprungsbild zum Erstellen eines Styles oder Seeds meist aus der Reihe späterer Bilder herausfällt. Die Bilder, die mit diesen Parametern erstellt werden, sind allerdings konsistenter im Bildlook und können für ein einheitliches Design genutzt werden. Wie immer gilt es, verschiedene Wege auszuprobieren und den richtigen für den eigenen Zweck zu finden. Weitere Informationen zum Style Tuner finden Sie hier: docs.midjourney.com/docs/style-tuner
Praxis: Konsistenter Stil mit Midjourney | 193
Meine Tipps und Erfahrungen Wenn Sie über Discord arbeiten, legen Sie sich auf jeden Fall einen eigenen Channel an, damit Sie den Überblick über Ihre generierten Bilder behalten. Außerdem können Sie so etwas mehr »Privatsphäre« für Ihre generierten Werke gegenüber anderen Usern erhalten oder auch gemeinsam im Team arbeiten. Es ist für den Anfang sehr hilfreich, sich im Discord-Hauptchannel von Midjourney umzusehen. Hier werden sekündlich neue Bilder generiert, und Sie können sich die Prompts anderer anschauen und sich inspirieren lassen. Auch die Hilfechannels sind toll, wenn man nicht weiterkommt. Außerdem finden Sie dort im Forum »PromptFAQs« und sehr viele Informationen über verschiedene Promptbefehle und neue Funktionen sowie Tipps, um bestimmte Ziele zu erreichen.
Prompthilfe von Midjourney Sie wissen nicht, wie Sie ein Bild beschreiben sollen? Dann laden Sie ein ähnliches Bild im Discord hoch (Bildrechte beachten), und lassen Sie es sich mit /describe als Prompt einfach beschreiben. Ein Beispiel dazu finden Sie im Praxisbeispiel »Konsistenter Stil mit Midjourney«. Ihr Prompt ist zu lang geworden? Dann probieren Sie die Funktion /shorten aus und lassen sich von Midjourney Promptvorschläge machen, die Sie auch gleich zur Bildgenerierung übernehmen können. Wie das funktioniert, haben Sie bereits in Kapitel 4 gesehen.
Midjourney erzeugt bisher die besten Ergebnisse in fast allen Bildbereichen und bietet sehr viele Möglichkeiten zur Beeinflussung der Ergebnisse, egal um welches Thema, Motiv oder Medium es sich handelt. Es bietet mit den Modi, Parametern und der einfachen Benutzeroberfläche sehr viele Möglichkeiten, was die Nutzung komplexer macht und etwas Einarbeitung benötigt – aber dafür mehr Kontrolle im Prozess bietet. Die Community ist groß und hilfreich, wenn man nicht weiterkommt.
Für erfahrene User Sind Sie mit den zahlreichen Funktionen und Parametern von Midjourney vertraut, können Sie sich einmal »Custom Preferences« anschauen (siehe docs.midjourney. com/docs/settings-and-presets). Nutzen Sie z. B. immer wieder mehrere und die gleichen Parameter innerhalb eines Projekts, können Sie eine Optionsliste daraus erstellen, die Sie selbst benennen und dann als einen einzigen Parameter nutzen statt der vielen verschiedenen Parameter zuvor.
Link zur Webseite midjourney.com
194 | Kapitel 5: KI-Programme im Kreativalltag
PRAXIS Model V6 [ALPHA] Werfen wir noch einen Blick auf die neue Version Midjourney V6. Mit /settings wähle ich die Version aus, alle Prompts erhalten nun automatisch --v 6.0 als Parameter (mit dem Parameter können Sie das Model nutzen, ohne es vorher einzustellen). Ich teste einige Prompts aus dem Buch, um Ihnen zu zeigen, wie sich das neue Modell verhält. /imagine photo of a woman who is sitting on a computer and making a phone call with a smartphone, pastel colors, mint --v 6.0
Die Bilder wirken realistischer, ähnlich den Ergebnissen aus dem RAW-Modus, den wir in diesem Kapitel getestet haben. Menschen insbesondere Hände sind weiterhin ein Problem, es gab jedoch einen starken Anstieg der Qualität solcher Darstellungen. Hier ein Bild, bei dem es ganz gut geklappt hat.
Probieren wir den Prompt aus dem Praxisbeispiel zu konsistenten Stilen in Midjourney. Dieser hat in Version 5.2 sehr kreative Fotos hervorgebracht, ganz im Stile der Künstlerin. /imagine coffee and plants with espresso white cup, in the style of intense and dramatic lighting, post processing, dark navy and beige, unreal engine 5, textural richness, award win ning, adonna khare --v 6.0
Das Ergebnis: Realismus pur – weniger kreativ und einen Tick zu sehr geschärft. Tassen haben manchmal noch zwei Henkel, dafür scheinen seltener undefinierbare Objekte in den Bildern vorhanden zu sein.
Der Prompt für dieses Bild stammte von Midjourney selbst. Spannend ist, dass dieses Bild völlig von den vorherigen Ergebnissen aus Version 5.2 abweicht. Das neue Modell bringt noch realistischere Ergebnisse in der Bildgenerierung hervor.
Praxis: Model V6 [ALPHA] | 195
Neues Modell, neues Prompting Wie bei anderen Modellupdates gibt es auch hier Anpassungen in der Art des Promptens. Die wichtigsten Tipps und Änderungen für V6 sind: J
J
J
J
J
J
Unnötige Füllwörter wie »award winning, pho torealistic, 4k« usw. sollten zukünftig weggelassen werden. Version 6 reagiert nun viel sensibler auf einzelne Wörter/Token in den Prompts. V6 hat ein größeres »Gedächtnis«, die Promptlänge kann nun 15–20 Wörter übersteigen und bietet somit noch mehr Gestaltungsmöglichkeiten. Farben und Details können mittels einfacher Sprache beschrieben werden. Es lohnt sich, die Szene und deren Inhalt besser zu beschreiben, um ein Ergebnis zu erhalten, das den eigenen Vorstellungen entspricht. Kompositionen können besser kontrolliert werden. Sie können nun mitteilen, was sich rechts, links, oben, unten im Bild befinden soll oder was im Vorder- und Hintergrund passiert. Texte in Bildern können mithilfe von Anführungszeichen im Prompt generiert werden. Es hilft ebenfalls zu beschreiben, worauf sich der Text befindet. Um bessere Ergebnisse zu erhalten, kann der Parameter --style raw verwendet werden. Je öfter Begriffe im Prompt vorkommen, desto mehr Bedeutung haben diese für das Ergebnis.
Sie können die Prompt-Formeln aus diesem Buch weiterhin nutzen und für sich anpassen, das funktioniert mit V6 bei meinen Versuchen sehr gut. Die Formeln helfen sogar noch mehr dabei, zielgerichteter zu prompten und bessere Ergebnisse zu erhalten.
196 | Praxis: Model V6 [ALPHA]
Schriften & Designs Testen wir, wie KI mit Schrift umgeht. Dazu nehme ich einen angepassten Prompt, den ich für das Praxisbeispiel »Produktfotografie mit Hilfe von Firefly« in diesem Kapitel genutzt habe. /imagine realistic packaging design for a coffee brand, brown paper bag with the words »COFFEE BEANS INSIDE« on it, natural and eco design environment, coffee beans lying around --v 6.0
Ein Tipp ist es, den Textwunsch in Anführungszeichen zu setzen. Mit Versalien kommt das KIModell wesentlich besser zurecht.
Texte werden dargestellt, aber es entstehen ungewollte Textwiederholungen und nicht immer wird alles korrekt geschrieben. Es ist jedoch ein großer Schritt in die richtige Richtung. /imagine user interface design sheet for an app for plant lovers, online shop for plants, handmade pots and interior design, clean and modern design, minimalistic, cute icons and minimalistic fonts, inspirational and detailed --v 6.0
Illustration und Grafik Nehmen wir das Aquarell aus Kapitel 4 und prompten es mit V6.
Die Ergebnisse sind okay, aber es fehlt die »Überraschung« und Inspiration.
Blending von Bildern Was macht die neue Version im Blend-Modus mit den zwei Katzenbildern aus Kapitel 4?
Die Farben wirken intensiver, aber ansonsten weichen die Ergebnisse kaum von denen mit Version 5.2 ab.
Dieses Aquarell wirkt »echter«, man erkennt Farbverläufe und die Struktur des Papiers.
Derselbe Prompt nun als Line Art. Die Details und die Schärfe der Linien sind erstaunlich.
Praxis: Model V6 [ALPHA] | 197
Der Teufel steckt im Detail Nach einigen Versuchen mit dem Modell sind die Bilder, die man mit dieser Version erstellen kann, beeindruckend. Bei der Begeisterung kann es passieren, dass man die Fehler in den Bildern erst auf den zweiten Blick erkennt.
Bei dieser Szene ist mir erst später aufgefallen, dass das Buch zwei Bindungen hat und so wohl niemals geöffnet werden kann. Und der Becher hat zwei Henkel ...
Vorsicht: Unser Gehirn spielt uns gerne Streiche, denn es vollendet Bilder automatisch, auch wenn diese nicht vollständig oder korrekt sind. Bei KI-Bildern, die bereits so realistisch wirken, müssen wir umso genauer hinschauen.
Fazit Das neue Modell ist definitiv ein Gewinn für fotorealistische Bilder und Illustrationen, auch wenn die Scharfzeichnung für meinen Geschmack manchmal zu stark ist. Die Möglichkeit, nun mehr Einfluss auf die Details zu nehmen, ist zwar eine großartige Weiterentwicklung, macht das Prompten jedoch komplexer.
198 | Praxis: Model V6 [ALPHA]
In den folgenden Abbildungen sehen Sie Beispiele für einen sehr detaillierten Bildprompt. Hier hat die KI jedoch nicht alles verstanden – besonders meine Wünsche zu den Farben im Fell wurden ignoriert. Dafür sehen die Katzen sehr realistisch aus und sind weitestgehend so wie beschrieben. Hier ist einige Übung notwendig, um in einer Fremdsprache eine detaillierte Bildbeschreibung zu erstellen.
Der gleiche Prompt wie bei der nächsten Abbildung, aber mit Version 5.2 und dem Parameter »Style Raw«. Das Hauptmotiv passt, die Details fehlen fast vollständig.
Die Parameter --style raw oder alternativ auch --stylize (0–1000 können helfen, noch realistischere Ergebnisse zu erhalten. Wer es kreativer haben möchte, kann jederzeit zu anderen Versionen wechseln. Version 6 ist ein Gewinn für alle, die auf realistischere Ergebnisse gewartet haben. Wir dürfen gespannt sein, wie sich Midjourney weiterentwickeln wird. Version 6 erweitert definitiv die Bandbreite an Anwendungszwecken der mit Midjourney generierten Bilder.
/imagine wide angle photo of two cats sitting on an old wooden book shelf with old but colorful and magical books, the left cat ist black with normal short and shiny fur, beautiful green eyes and some psychedelic color spots in the black fur, the cat on the right side is beautiful white and fluffy with a cute pink nose, greyish head, turquoise eyes and some pinkish fur and tail, are sitting in one book shelf, psychedelic and pastel colors, old library with beautiful and magical objects next to the books like colorful gem stones and potions. Moody and magical light coming from candles. Glowing potions and gem stones. --ar 3:5 --style raw --v 6.0
ChatGPT 4.0 Das multimodale KI-Werkzeug stammt aus dem Hause OpenAI, einem amerikanischen Unternehmen, das ursprünglich auf dem Open-Source-Modell aufgebaut wurde und heute durch die OpenAI Global kontrolliert wird, deren Hauptaktionär seit Mitte 2023 Microsoft ist. Die Kombination eines der zurzeit weltweit besten Textmodelle GPT-4 mit der Bild-KI DALL-E und der Onlinesuche Bing wird das Arbeiten maßgeblich verändern. Die Bildgenerierung ist meiner Meinung nach zurzeit nicht zu 100 % professionell einsetzbar, aber es ergeben sich trotzdem einige Einsatzmöglichkeiten, die Sie in diesem Abschnitt näher kennenlernen werden oder bereits gesehen haben. ChatGPT ist ein bemerkenswert gutes Textmodell, kann programmieren, Bilder generieren oder sogar GIFs, Videos und vieles mehr (mit Hilfe von Plugins oder dem Code Interpreter) erstellen.
Zugang zur KI Den größten Funktionsumfang bietet die Nutzung über den Internetbrowser, es gibt aber auch eine App für Smartphone und Tablet, die den Zugang zu vielen Funktionen wie DALL-E, die Bing-Suche und Plugins bietet. Die Nutzung des älteren Modells, aktuell GPT-3.5, ist kostenlos, hat allerdings Einschränkungen wie z. B. einen begrenzten und nicht aktuellen Trainingsdatensatz, keinen Zugriff auf die Kombination mit DALL-E, dem Internet und Plugins sowie einen kürzeren Input und Output an Token. Das User Interface ist sehr schlicht aufgebaut, und man kann ohne große Vorkenntnisse direkt loslegen.
Nutzung der KI Die Kommunikation mit der KI erfolgt über einen Chat. ChatGPT versteht viele Sprachen – daher ist Deutsch kein Problem. Sie können zwischen den Versionen wechseln, je nach Aufgabengebiet. GPT-3.5 reicht für grundlegende Aufgaben wie einfache Textgenerierung, Standardfragen und -antworten sowie grundlegende Konversationen aus. GPT-4 ist besser geeignet für komplexere Aufgaben wie detaillierte Texterstellung, fortgeschrittene Analysen, kreative Schreibarbeiten und das Bearbeiten von spezifischen oder technischen Anfragen. Außerdem sind in dieser Version DALL-E sowie die Bing-Suche integriert. Sie können Bilder und Dateien hochladen und von ChatGPT verarbeiten lassen. Möchten Sie Plugins nutzen, können Sie diese durch den Klick auf die Schaltfläche »Plugins« aktivieren. Es gibt einen Plugin-Store, und die Anzahl der Plugins wächst stetig. Des Weiteren gibt es einen Store, wo Sie Ihre selbsttrainierten GPTs (d. h. eigene Modelle, GPT = »Generative Pre-trained Transformer«) anbieten oder die von anderen kostenpflichtig erwerben können. Unter »Explore« können Sie eigene GPTs erstellen oder aus einigen von OpenAI wählen. Zudem gibt es eine Liste an bisherigen Chatverläufen, die Sie löschen, umbenennen oder nochmals einsehen können.
200 | Kapitel 5: KI-Programme im Kreativalltag
Funktionen freischalten und Datenkontrolle Sie finden manche Funktionen nicht? Klicken Sie links unten im Browser auf Ihren Namen, und gehen Sie in die Einstellungen. Manche Funktionen sind noch in der Betaphase und müssen daher erst eingeschaltet werden. Hier können Sie auch noch weitere Einstellungen, wie die Datenkontrolle, tätigen.
Zahlreiche Beispiele für Prompts haben Sie bereits kennengelernt. Ich selbst nutze ChatGPT für folgende Tätigkeiten in meinem Arbeitsalltag: J J J J J J J J J J J
Inspiration und Ideengenerierung (siehe Kapitel 2) Konzeptideen und Briefings (siehe Kapitel 2 und 3) Texte generieren (z. B. für Blogartikel, YouTube-Videos oder Workbooks) Zusammenfassung von Texten, Webseiten und PDF-Dokumenten Analyse von Webseiten und Texten Erstellen von Tabellen Übersetzung von Texten Erstellung von Prompts für ChatGPT selbst oder Bild-KIs Coding für Webseiten und andere Zwecke Generierung von Pixelbildern Alternativtexte von Bildern für Web und Barrierefreiheit
Neue Chats bringen Ordnung, haben aber noch weitere Vorteile Erstellen Sie für neue Themen mit dem Klick auf einen neuen Chat. ChatGPT merkt sich bis zu einer gewissen Zeit und Länge der Konversation den Inhalt. Das ist sehr praktisch, wenn Sie ein Thema vertiefen wollen, ohne jedes Mal von vorne zu beginnen. Es schadet aber auch nicht, sich zwischendurch eine Zusammenfassung geben zu lassen, damit man diese nach einer gewissen Zeit zur Auffrischung nutzen kann. Sie können Chats auch exportieren oder mit anderen teilen.
Mit der Integration von DALL-E ergeben sich in der Kombination mit ChatGPT neue Möglichkeiten in der Bildgenerierung. Prompting wird dabei fast zur Nebensache, da ChatGPT eigene Prompts erzeugt und man über den Chat die Bilder nach und nach den eigenen Vorstellungen anpassen kann, ohne von vorne zu beginnen. Die KI hebt sich vor allem dadurch ab, dass sie immer mal wieder Rückfragen stellt, damit die Ergebnisse verbessert werden. Die zahlreichen Funktionen und Plugins machen aus ihr ein extrem vielseitiges Werkzeug in der täglichen Kreativarbeit, das immer besser wird. Die Textsynthetisierung ist so gut, dass es sich manchmal so anfühlt, als würde man mit einem Menschen kommunizieren. Das macht es zu einem idealen Sparringpartner in der täglichen Arbeit, egal ob analytisch, kreativ oder zur reinen Unterhaltung.
ChatGPT 4.0 | 201
Erste Schritte mit ChatGPT Prüfen Sie, welches Modell gerade aktiviert ist. Erstellen Sie einen neuen Chat mit . Nun stehen Ihnen alle Möglichkeiten offen. Nutzen Sie das Potenzial von ChatGPT, und lassen Sie sich eine Reihe an Fragen oder Prompts generieren, die Sie dann nutzen, um die KI mit Informationen zu versorgen – für die bestmöglichen Ergebnisse.
Sie können mit dem Büroklammer-Symbol im Texteingabefeld auch Bilder und Dateien hochladen und diese beschreiben, übersetzen, zusammenfassen oder bearbeiten lassen.
Sie können ChatGPT z. B. eine Expertenfunktion zuweisen: prompt Du bist jetzt Experte im Prompt-Engineering für ChatGPT als BusinessExperte. Welche Prompts sind die besten, um eine gute Strategie für mein Business herauszufinden?
Um Bilder zu erstellen, beschreiben Sie, was Sie generieren möchten:
Screenshot aus der Browseranwendung von ChatGPT
prompt Ich benötige einige Icons für einen Planer. Nur Flächen und Linien, ohne viele Details. Vektorisierbar. Zunächst ein Piktogramm für ein Buch.
Blenden Sie den Prompt ein, indem Sie auf das Bild und dann oben auf das »i«-Symbol klicken. Der finale Prompt des Bildes hilft, eine Vorstellung zu erhalten, wie ChatGPT und DALL-E arbeiten.
202 | Kapitel 5: KI-Programme im Kreativalltag
Bilder beschreiben lassen Sie können mit einem Bildprompt auch eine detaillierte Beschreibung Ihres Bildes erhalten. ChatGPT erkennt nicht nur die Bilder und Texte im Bild – es zieht sogar richtige Schlüsse aus dem, was auf dem Bild zu sehen ist, ohne dass Kontext geliefert wurde. Das ist nicht nur praktisch für Alternativtexte für Webseiten oder barrierefreie Dokumente, sondern auch, um aus Bildbeschreibungen eigene Bildprompts zu entwickeln. Laden Sie über die Büroklammer ein Bild hoch oder posten Sie den Link zum Bild und beschreiben Sie, was die KI damit machen soll. prompt Beschreibe dieses Bild, beachte alle Texte in sinnvoller Reihenfolge. Die Beschreibung soll als Alternativtext für das Web und Menschen mit Sehbehinderungen dienen.
Erweiterte Techniken im KI-Prompting ChatGPT versteht Zusammenhänge sehr gut und kann auch nachfragen, um bessere Ergebnisse zu liefern. Um sich gezielt Texte generieren zu lassen, können Sie die Formel und das Beispiel aus Kapitel 4 nutzen, um sich das Prompten etwas zu erleichtern: [Thema/Kontext] + [Stil/Form] + [Zielgruppe] + [Ton] + [Struktur] + [Spezifische Details] + [Länge] + [Perspektive] + [Absicht/Ziel]
Besonders Stil und Form sind maßgebend für Ihr Ergebnis. Ohne solche Vorgaben wirken die Texte sehr generisch und austauschbar. Teilen Sie der KI Hintergrundinformationen wie die Zielgruppe und weitere wichtige Details mit. Geben Sie Ihren Texten eine Struktur, z. B. ein Intro, einen Haupt- und Schlussteil, und geben Sie vor, ob es ein Fließtext, ein Gedicht oder eine Aufzählung sein soll. Die Perspektive kann auch ein wichtiges Stilmittel sein, wie die Erzählerperspektive oder die dritte Person. Auch das angestrebte Ziel der Maßnahme oder des Textes ist eine wichtige Information, damit der Text auch das transportiert, was er soll. Je nach Anwendungsbereich kann eine Promptformel ganz anders aussehen. Möchten Sie z. B. eine Kampagne erstellen? Dann könnte diese Formel passen: [Produkt/Dienstleistung] + [Ziel der Kampagne] + [Zielgruppe] + [Ton/Stimmung] + [Hauptbotschaft] + [Stil/Form] + [Kanäle/Medien] + [Call-to-Action] + [Länge/ Beschränkungen] + [Besondere Anforderungen]
Dabei müssen Sie sich nicht an die Reihenfolge halten und können auch die eine oder andere Information weglassen. Probieren Sie aus, wie die KI reagiert, und geben Sie Feedback über den Chat, um das Ergebnis anpassen zu lassen. Die Textform ist nur eine Möglichkeit des Outputs. Lassen Sie sich die Ergebnisse in einer besonderen Form erstellen, etwa als Tabelle oder als Aufzählung .
ChatGPT 4.0 | 203
prompt Erstelle eine Tabelle mit täglichen Postingideen einer ganzen Woche für ein nachhaltiges Kaffeeunternehmen. Eine Spalte für das Thema, eine für die Motividee, eine für den Text unter dem Bild und eine für die Hashtags.
Thema
Motividee
Text unter dem Bild
Hashtags
Nachhaltige Anbaumethoden
Foto einer Kaffeefarm mit Schattenbäumen
»Entdecken Sie, wie unser Kaffee im Einklang mit der Natur wächst.«
#NachhaltigerKaffee #NaturAnbau
Fairer Handel
Porträt eines lächelnden Kaffeebauern
»Hinter jeder Tasse: Die Gesichter unseres fairen Handels.«
#FairerHandel #KaffeeMitHerz
Umweltfreundliche Verpackung
Bild der biologisch abbaubaren Kaffeeverpackung
»Gut für Sie, gut für den Planeten: Unsere umweltfreundliche Verpackung.«
#Umweltfreundlich #ZeroWaste
KaffeeCommunity
Gruppenfoto mit Kunden im Café
»Gemeinsam für eine bessere Welt – Danke, dass Sie Teil unserer Community sind.«
#KaffeeLiebe #GemeinsamStark
ProduktHighlight
Stillleben mit neuer Kaffeesorte
»Probiert unseren neuen, nachhaltig angebauten Spezialkaffee.«
#NeuImSortiment #Spezialkaffee
KaffeeRezepte
Foto eines Kaffeegetränks mit Rezept
»Wochenendgenuss: Unser Kaffee-Rezept für den perfekten Start in den Tag.«
#KaffeeRezept #WochenendGenuss
Entspannung und Kaffee
Bild von jemandem, der Kaffee auf dem Balkon genießt
»Sonntagsruhe mit einer Tasse unseres besten Kaffees.«
#Sonntagskaffee #Entspannung
Ergebnisausgabe in Form einer Tabelle
Solch eine Tabelle kann die Konzeption und die Planung von Social-Media-Aktivitäten unterstützen. Lassen Sie sich eine CSV-Datei generieren, um die Tabelle direkt in ein Tabellenprogramm zu übernehmen. Coding mit ChatGPT Die KI kann Ihnen bei der Programmierung helfen. Geben Sie an, was Sie in welcher Programmiersprache generiert haben möchten, oder geben Sie einen vorhandenen Code ein, und lassen Sie diesen überprüfen, Fehler korrigieren oder nach eigenen Wünschen ändern. So werden z. B. einfache Änderungen an einer Webseite zu einer schnellen und nervenschonenden Angelegenheit.
204 | Kapitel 5: KI-Programme im Kreativalltag
PRAXIS Präsentationen mit Hilfe von KI erstellen Wenn Sie Präsentationen erstellen, kann KI Ihnen dabei helfen. Von der Idee über Texte und Bilder bis hin zu einem Präsentationsdesign – all das können Sie mit Hilfe von verschiedenen KI-Modellen erarbeiten. Je mehr Informationen Sie bereitstellen, desto besser passen die Vorschläge zum gewünschten Zweck. Gehen Sie Schritt für Schritt durch den Prozess, und passen Sie einzelne Themen an, bevor Sie fortfahren. Ideen und Text Wenn Sie Unterstützung bei der Konzeption einer Präsentation wünschen, ist ChatGPT ein vielseitiger Helfer. Von Ideen bis hin zu Text und Inhaltsstruktur können Sie KI nutzen, um Ihre Präsentation aufzubereiten. Hier ein paar beispielhafte Prompts: prompt Erkläre [hier Thema/Text einfü gen] für [Zielgruppe einfügen]. prompt Erstelle ein Grundkonzept für eine Präsentation über [spezifisches Thema], inklusive der Hauptpunkte und Schlüsselbot schaften. prompt Formuliere ansprechende und informative Texte für die Slides einer Präsen tation zum Thema [gewähltes Thema].
Sie haben bereits ein Konzept und Texte? Geben Sie alles ChatGPT, und lassen Sie es prüfen. Vielleicht kann die eine oder andere Folie optimiert werden. ChatGPT kann auch den kompletten Code einer Präsentation schreiben, den Sie anschließend in PowerPoint öffnen können.
prompt Erstelle ein Makro für PowerPoint aus folgenden Inhalten: [Inhalte einfügen]
Für PowerPoint und Google Slides gibt es ein Add-on/Plugin, um ChatGPT innerhalb der Anwendung zu nutzen.
KI-Präsentations-Tools Es gibt KI-Tools, die sich auf das Erstellen von Präsentationen spezialisiert haben, wie beautiful.ai oder simplified.com.
Das klingt zwar alles sehr vielversprechend, aber die Ergebnisse bedürfen meist einiger Anpassungen, bevor man damit vor ein Publikum tritt. Trotzdem kann der Einsatz von KI einige Arbeit ersparen, und wer öfter Präsentationen erstellt, kann sich hier einen eigenen Workflow zusammenstellen und damit zumindest einige Teile der Präsentationserstellung automatisieren. Gestaltung und Grafiken Neben dem Inhalt ist das Design bei Präsentationen ein entscheidender Faktor. Lassen Sie z. B. Midjourney einen Designvorschlag machen, den Sie dann umsetzen (lassen) können: /imagine a presentation design, business portfolio for a company selling plants, clean and modern, minimalistic, pastel colors --ar 16:9
Die Ergebnisse sehen Sie in der folgenden Abbildung. KI kann bei der Designentscheidung helfen und neue Ideen liefern.
Praxis: Präsentationen mit Hilfe von KI erstellen | 205
Bilder generiert mit Midjourney
Moderne und erfrischende Designvorschläge, die zur Inspiration eines eigenen Präsentationsdesigns dienen können. Sie können denselben Prompt nutzen und verschiedene Stile und Farbkombinationen ausprobieren. Nutzen Sie solche »Mockups« für interne Besprechungen, bevor Sie viel Arbeit in ein Design stecken.
206 | Praxis: Präsentationen mit Hilfe von KI erstellen
Auch einzelne Grafiken und Bilder zur Unterstützung Ihrer Präsentation können Sie mit Hilfe von Bildprompts erstellen. Dabei lasse ich der KI gerne viel »kreative« Freiheit, wie sie das Thema interpretiert. Visualisieren Sie Ihre Themen z. B. mit Midjourney.
prompt Erstelle dazu ein passendes Bild/ Infografik/Illustration im Querformat 16:9 zu folgendem Text: [hier Text einfügen]
Oder Sie beschreiben ganz genau, was Sie generiert haben möchten.
/imagine make a visual for a presentation about creativity meeting artificial intelligence, make it dark purple and orange, add some colors if neccessary, have fun --ar 16:9
prompt Ich möchte eine Infografik erstel len. Sie soll zeigen, dass die meisten KI-Tools auf wenigen Marktführern basieren. Das Ganze soll schlicht und modern dargestellt werden. Mache mir Designvorschläge für solch eine Grafik im Hochformat. Ohne Text.
Tipp für Bilder in Präsentationen Gerade bei Präsentationen darf es auch mal freier sein. Wichtig ist, dass die Message hinter dem Ganzen transportiert und verstanden wird, und dabei darf dem Publikum auch etwas Interpretationsfreiraum gelassen werden.
Das sind nur einige Ideen und Anregungen, wie Sie KI für Ihre Präsentationen nutzen können. Natürlich gibt es noch weitere KI-Tools, die da ansetzen, wo Midjourney und ChatGPT aufhören: dem Visualisieren von konkreten Daten.
Auch in diesem Buch habe ich den KI-Modellen viel Freiheit gelassen und nur wenn nötig eine konkrete Richtung angegeben. Meist haben die generierten Bilder so gut zum Text gepasst, dass ich nicht viel am Prompt anpassen musste.
Natürlich können Sie auch direkt in ChatGPT mit Grafiken weiterarbeiten. Zunächst können Sie sich Bildideen liefern lassen, was sich als Abbildung eignen könnte. prompt Schlage passende Bilder oder Grafiken vor, die die Hauptpunkte der Präsenta tion über [Thema] visuell unterstützen.
Infografiken mit KI Schauen Sie unter theresanaiforthat.com/s/ text+to+infographic, ob sich hier ein KI-Tool befindet, das Ihren Zwecken dient.
Weitere Ideen Natürlich ergeben sich durch die Nutzung von KI weitere Möglichkeiten, professionelle Präsentationen zu gestalten. Hier ein paar Ideen: J J J
Am besten gehen Sie jedoch Bild für Bild durch, das Sie generieren möchten. Wenn die Ergebnisse nicht passen, können Sie den Prompt für die Modelle Ihrer Wahl anpassen und nutzen.
J
Animieren von Bildern und Infografiken Bearbeiten von eigenem Bildmaterial Visualisieren von Ideen in Form von generierten Moodboards und Mockups Anpassung von Fachtexten auf zielgruppengerechte Sprache
Praxis: Präsentationen mit Hilfe von KI erstellen | 207
PRAXIS Designs mit ChatGPT entwerfen ChatGPT ist ein multimodales KI-Modell, das mehrere KI-Funktionen in einer Benutzeroberfläche miteinander vereint. Was das für Vorteile gegenüber reinen Bild-KIs hat, möchte ich Ihnen in diesem Praxisbeispiel demonstrieren. Der Vorteil multimodaler KI-Modelle Was vielen Bild-KI-Modellen fehlt, ist das Verständnis von Kontext und Inhalt. Sie sind gut im Generieren von dem, was man ihnen mehr oder weniger vorgibt, und im Hinzuerfinden weiterer Elemente und Details.
Sie können auch Dateien und Bilder hochladen, auf die sich die KI beziehen soll. Am besten funktioniert das Ganze aber, wenn Sie in den ersten Phasen Ihres Projekts mit Hilfe der KI vorgehen, um sich von den Ergebnissen inspirieren zu lassen. prompt Entwirf ein Design für eine Web seite für Pflanzenfreunde. Stylisch und schlicht, mit Fokus auf Fotos von Pflanzen und dem Interior Design mit Pflanzen.
ChatGPT ist die Kombination eines sehr starken LLM mit weiteren Funktionen – wie dem Code Interpreter, um Daten und Programmiercode zu verarbeiten, DALL-E, um Bilder zu generieren, und der Integration der Bing-Suche und somit des Zugriffs auf das Internet. Weitere Plugins bringen externe Tools und Funktionen in das Modell mit hinein und damit schier endlose Möglichkeiten in der Nutzung von ChatGPT. Daher eignen sich gerade solche Modelle sehr gut, um komplexere Aufgaben wie das Entwerfen von Designkonzepten zu erledigen. Auch wenn diese Entwürfe nicht direkt nutzbar sind, können sie erste wichtige Schritte im Designprozess darstellen und Ideen wie auch Ressourcen für Designkonzepte einbringen. Designprozess mit ChatGPT Um diese Art des Prozesses umzusetzen, benötigen Sie die Bezahlversion von ChatGPT mit der aktuellen Version 4. Starten Sie, indem Sie Informationen zum Projekt sowie ein Briefing eingeben.
208 | Praxis: Designs mit ChatGPT entwerfen
Der sehr vage Prompt hat bereits zu spannenden Ergebnissen geführt. Im Gespräch innerhalb des Chats können Sie nun Änderungswünsche oder weitere Details mitteilen.
Doch mit den ersten Entwürfen muss es nicht aufhören. Lassen Sie sich passende Unterseiten oder ein Designsheet für die Designelemente einer Website oder App generieren.
prompt Bild.png Erstelle genau zu diesem Entwurf im Bild weitere Unterseiten der Website. Zum Beispiel eine Seite mit Tipps zur Pflanzenpflege. Übernimm den Stil der Dar stellung.
Zur Sicherheit habe ich das letzte Bild dem Prompt angefügt. Der Look der Seite unterscheidet sich, aber trotzdem hat die KI sehr gut erfasst, was ich von ihr erwarte, und sogar Unterkategorien erstellt, die zur Pflege von Pflanzen passen.
Designsheets erstellen lassen Um eine Hilfe bei der Umsetzung eines solchen Designs zu haben, können Sie sich Design sheets erstellen lassen. Das funktioniert nicht immer einwandfrei, aber ein paar Versuche bringen einige brauchbare Ergebnisse, aus denen Sie sich bedienen können. Solange Sie nicht den Anspruch haben, dass Sie ein fertiges und nutzbares Design erhalten, haben Sie den Vorteil, sich von den Ergebnissen überraschen und inspirieren zu lassen. Natürlich können Sie auch ohne vorherige De signerstellung Designsheets generieren lassen und eigene Vorgaben mitteilen.
prompt Erstelle ein Designsheet aus den Elementen in diesen Bildern. Schlicht und stylish. Einfache Grafiken und Icons. Gedeckte Grüntöne und viel Weiß.
Leider sind diese Icons und Grafiken weit von den vorher generierten Webdesigns entfernt, bieten aber trotzdem Inspiration für eigene Designelemente.
Appdesign entwickeln Probieren Sie einmal aus, Ideen für eine App zu entwickeln. Ich habe es einmal getestet: prompt Ich möchte eine App für Smart phones gestalten. Die Idee hinter der App ist es, Informationen und Tutorials für die Pflege von Pflanzen bereitzustellen. Man kann Pflanzen abfotografieren und erhält Pfle ge tipps. Dazu gibt es viel Bild- und Videomate rial von Pflanzen. Auch das Thema Wohnungs gestaltung mit Pflanzen sowie eine Anbindung an einen Shop für Pflanzentöpfe und Acces soires sollen integriert werden. Erstelle ein De signmockup und Konzept für diese App. Das Design soll schlicht und stylisch sein. Klare Typografie und große sowie ansprechende Fotos. Die Farben reduziert.
Praxis: Designs mit ChatGPT entwerfen | 209
ChatGPT schafft es nicht immer, meine Wünsche zu berücksichtigen, aber es macht Spaß, zu experimentieren und die Grenzen des Modells auszutesten.
Die Darstellung dieses Designs hebt einige Design elemente hervor, die auf weitere Funktionen hinweisen können.
Das Ergebnis sind einige App-Mockups, die im gewünschten Stil die Funktionen der App zeigen.
Fazit Das Designen mit KI braucht bei allen Modellen eine niedrige Erwartungshaltung sowie Offenheit bezüglich der Ergebnisse. Zudem braucht es Geduld und mehrere Anläufe, um auf passende Ergebnisse zu kommen. Das Erstellen solcher Designkonzepte eignet sich gut für erste Mockups und Ideensammlungen. Sie können sehen, in welche Richtung es gehen soll, und auch, in welche nicht. Beim Erstellen dieser Beispiele musste ich öfter neu beginnen, die generierten Bilder hochladen und vieles verwerfen. Hier ist es ein Abwägen von Zeitaufwand und Ergebnis, ob Sie mit Hilfe von ChatGPT Designs erstellen möchten.
Auch dieser Entwurf zeigt verschiedene Screens einer App, auf denen man das eigene Design aufbauen kann.
210 | Praxis: Designs mit ChatGPT entwerfen
Ich selbst werde immer wieder versuchen, damit zu arbeiten. Die Modelle lernen dazu und werden immer besser. Es liegt an uns, was wir daraus machen.
PRAXIS Eigene GPTs erstellen Seit November 2023 kann man mit einem GPT4-Abo eigene Modelle ganz ohne Programmierkenntnisse entwickeln. Unter »Explore« kommt man zu den eigenen GPTs, kann neue erstellen oder findet eine Liste von bereits erstellten GPTs von OpenAI oder anderen Usern, sofern diese den Zugang ermöglicht haben.
Schriften zu gestalten und damit auf eine experimentelle Art und Weise an das Schriftdesign heranzugehen. Ich beginne mit der Konfiguration. Ohne viel Input zu geben, hat ChatGPT anscheinend bereits viel Wissen über Typografie. Ich gebe noch einige Online-Quellen für Fachbegriffe an, damit der Lerneffekt noch eine wichtigere Rolle spielt. Sofort bemerke ich einen Anstieg der fachlichen Kompetenz des GPTs. Außerdem gebe ich noch Links zu Datenbanken mit kostenlosen Schriftarten ein.
Screenshot aus ChatGPT
Den Dialog zur Erstellung kann ich hier nicht ganz aufzeigen, aber im Grunde habe ich folgende Aspekte zur Erstellung beigetragen: J
Für den Anfang können Sie von den bereits erstellten GPTs profitieren und sich für bestimmte Aufgaben ein Modell auswählen, das genau darauf trainiert wurde.
J
J
Klicken Sie auf »Create a GPT«, und überlegen Sie sich, welche Aufgabe das neue Modell erfüllen sollte. Je spezifischer, desto besser. Via Chat werden Sie gefragt, was für die Erstellung des GPT-Modells wichtig ist. Je mehr Input Sie geben, desto besser. Auf der rechten Seite können Sie dann Ihr Modell testen und es über den Dialog auf der linken Seite anpassen. Kann ChatGPT Schriften entwickeln? Als Dozentin suche ich natürlich Möglichkeiten, wie ich KI sinnvoll in der Lehre einsetzen kann, z. B. im Bereich Typografie. Also habe ich ein GPT-Modell erstellt, das mir dabei hilft, neue
J J J
Schriften sollen schwarz auf weiß und ohne Grautöne erstellt werden, es sei denn, es wird etwas anderes verlangt. Zu jedem Schriftvorschlag soll eine Visualisierung des Buchstabens A in seiner Majuskel- und Minuskelform generiert werden. Der Hintergrund soll immer einfarbig sein, keine Schatten und keinen Verlauf aufweisen, damit man die Buchstaben besser vektorisieren kann. Die Persönlichkeit des GPTs soll fachkundig, aber auch kreativ und humorvoll sein. Schriften sollen ästhetisch ansprechend, aber auch funktional und umsetzbar sein. Fachwissen soll im unterhaltsamen Stil vermittelt werden.
Diese Eigenschaften sind durch verschiedene Tests entstanden. Ich kann jederzeit zurück und weiteren Input geben, um so das Modell nach und nach zu verbessern.
Praxis: Eigene GPTs erstellen | 211
Das Ganze hat wenige Minuten gedauert und war sehr intuitiv. ChatGPT macht sogar Namensvorschläge und generiert einen Avatar. Lassen Sie uns zusammen versuchen, einen Schriftzug zu gestalten! Schriftdesign – eine Herausforderung für KI Es gibt noch nicht viele KI-Modelle, die Schrift fehlerfrei und nutzbar darstellen können. Zudem sind die verfügbaren Modelle nicht dazu geeignet, bearbeitbare Schriftsätze zu erzeugen. Doch manchmal braucht es nur einen Schriftzug, wie für ein Logodesign, oder auch nur einzelne Buchstaben. KI kann zur Inspiration im Schriftdesign dienen, aber es lässt sich (noch) keine komplett neue Schrift generieren, die man mit anderen Tools zu einer Schriftdatei umwandeln kann.
Type Crafter Fantastisch! Eine Schriftart, die das Thema Künstliche Intelligenz wider spiegelt, klingt sehr spannend. Wir konzen trieren uns auf ein schlichtes, modernes und technisches Design für das »A«. Ich stelle mir gerade vor, dass wir für diesen Buchstaben eine geometrische Form wählen, vielleicht mit einigen Elementen, die an Schaltkreise oder digitale Netzwerke erinnern. Dies wird dem »A« einen futuristischen und technologischen Look verleihen. Da wir uns auf Schwarz-Weiß konzentrieren, können wir starke Kontraste nutzen, um das Design hervorzuheben. Um es umsetzbar für Designprogramme zu machen, achten wir darauf, dass die Linien klar und die Formen einfach genug sind, um sie leicht digitalisieren zu können. Ich werde jetzt ein Konzept für das »A« entwerfen. Sobald wir mit diesem Buchstaben zufrieden sind, können wir uns den anderen Buchstaben zuwenden, um eine kohärente Schriftart zu schaffen. Lass uns beginnen!
Zugang zum Type Crafter Scannen Sie den QR-Code, oder gehen Sie auf chat. openai.com/g/g-zULJ6IKyctype-crafter, und probieren Sie mein GPT-Modell aus.
Um mit dem Type Crafter eine Schrift zu gestalten, gebe ich folgenden Prompt ein: prompt Ich möchte eine Schriftart gestal ten, die das Thema Künstliche Intelligenz auf greift. Bitte ganz schlicht, modern und tech nisch, Schwarz auf Weiß und umsetzbar als Schrift für Designprogramme. Fangen wir mit dem Buchstaben A an. Hier ist ein Ergebnis aus verschiedenen Versuchen. Das A hat zu viele Details und keine klaren Umrisse. Trotzdem könnte man darauf aufbauend einen Schriftzug gestalten.
212 | Praxis: Eigene GPTs erstellen
Nach einigen Konfigurationen an dem GPT Type Crafter habe ich es geschafft, dass die Ergebnisse mehr in Richtung Schriftgestaltung gehen. Einfacher ist es, wenn die KI versucht, das Alphabet zu generieren statt Einzelbuchstaben. Auch wenn das nicht zu 100 % funktioniert, wie man bei den folgenden Beispielen sehen kann.
Manchmal »vergisst« das GPT Dinge, wie die Anforderungen, alles schwarz auf weiß zu generieren, wenige Details zu nutzen und Deutsch zu sprechen (und alle Buchstaben zu gestalten ...). Versuchen wir eine andere Stilrichtung: prompt Kannst du eine kursive Schriftart ohne Serifen entwerfen?
prompt Kannst du eine Schriftart für eine moderne Kunstgalerie entwerfen?
Dieser Prompt kam aus der KI selbst als Vorschlag und hat direkt funktioniert. Type Crafter A minimalist and geometric black-on-white font design, showcasing the entire alphabet, perfect for a modern art gallery. This design focuses on pure black letters on a white background, with no shading or gradients. Each letter from A to Z is created with sharp, clean lines and geometric shapes, emphasizing simplicity and balance. The font should be distinctly readable, reflecting a contemporary, stylish aesthetic with a strong emphasis on high contrast between black and white for maximum clarity and visual impact.
Auch hier ist das Alphabet nicht vollständig, aber nun hat die KI neben Majuskeln auch Minuskeln erzeugt, und man kann auf dieser Basis mit der Schriftgestaltung starten. Type Crafter Design of a complete alpha bet in a cursive, sans-serif font style in black and white. The letters should be slightly tilted to emphasize the cursive nature, with smooth and continuous lines, devoid of abrupt angles. Ensure that each letter is distinct and legible, conveying a flowing, dynamic impression. The stroke thickness should be uniform across all letters, suggesting a calm and balanced appearance. This font should embody a modern and minimalist aesthetic, suitable for elegant and stylish contexts, while maintaining clear readability for each character.
Praxis: Eigene GPTs erstellen | 213
Ideen und Möglichkeiten für eigene GPTs Das Erzeugen eigener GPTs eröffnet ganz neue Möglichkeiten. Hier ein paar Ideen, was Sie für Ihren Kreativworkflow erzeugen könnten: J
J J
J
Trainieren Sie die KI auf Kreativtechniken, und nutzen Sie sie als Sparringpartner für die Ideenentwicklung wie in Kapitel 2 beschrieben. Erstellen Sie sich GPTs, um Neues zu lernen, wie das Prompten oder Programmieren. Teilen Sie mit Ihren Kundinnen und Kunden gewisse GPTs, die Sie speziell für diese anlegen und trainieren, z. B. für das Erstellen von Kreativbriefings oder andere Möglichkeiten der Zusammenarbeit. Probieren Sie aus, was möglich ist, und seien Sie kreativ. Gestalten Sie das GPT so, dass es für Sie die besten Ergebnisse liefert oder lassen Sie sich von anderen GPTs inspirieren.
Tipps im Umgang mit GPTs Die Funktion ist sehr neu, allerdings habe ich bereits einige Erfahrungen sammeln können und möchte diese an Sie weitergeben. J
J
J
J J
J
J
Mit KI können Felder wie die Typografie, die vielen Regeln unterliegt, aufgebrochen und somit neu entdeckt werden. KI-generierte Schriften können mehr Gestaltungsfreiraum bieten und zu neuen Kreationen inspirieren.
214 | Praxis: Eigene GPTs erstellen
Manchmal teilt die KI mit, dass sie das Angefragte nicht tun kann (obwohl sie es vorher anstandslos gemacht hat). Dann hilft oft nettes Bitten oder »Sei kreativ und finde eine Lösung« als Motivation, es doch zu tun. Schalten Sie den Code Interpreter an, denn mit Python ist doch einiges möglich, was vorher unmöglich erschien, wie das Erzeugen von GIFs, Videos und Musik oder Dateien. Halten Sie den Anwendungszweck so speziell wie möglich. Für alles andere können Sie das »normale« GPT-Modell nutzen. Passen Sie das Modell immer wieder an, und »erinnern« Sie es an das, was es tun soll. Manchmal hilft es, etwas nachdrücklicher zu sein oder die Aufgabenstellung umzuformulieren, um an das Ziel zu kommen. Ist das Ergebnis völlig daneben? Dann starten Sie lieber in einem neuen Chat, als zu versuchen, es zu retten. Erwarten Sie nicht, dass die KI Ihnen alles abnimmt, sondern sehen Sie sie als Ergänzung in Ihrem Arbeitsalltag. Ansonsten wären solche Ergebnisse wie aus meinem Type Crafter eher enttäuschend. Sieht man sie allerdings als Starthilfe und Inspiration in der Schriftgestaltung, bei der man etwas über Schriften lernt, ist das GPT genau richtig.
Seit Januar 2024 gibt es einen Shop, in dem Sie Ihre eigenen GPTs anbieten und sich somit etwas hinzuverdienen können. Es kann sich lohnen, sich damit zu beschäftigen, um in Zukunft mit dem eigenen Fachwissen neue Geschäftsmöglichkeiten zu entdecken. Bevor Sie andere GPTs kaufen, sollten Sie möglicherweise erst selbst versuchen, ein GPT zu trainieren.
Hinweis Datenschutz Es gibt Berichte, dass die KI auf einiges Bitten und Nachfragen die Trainingsdaten verrät und zur Verfügung stellt. Wenn Sie also ein eigenes GPT erstellen und es teilen möchten, informieren Sie sich vorher, wie sicher Ihre Daten sind, die Sie zur Verfügung gestellt haben. Laden Sie auf keinen Fall vertrauliche Daten hoch oder solche, für die Sie keine Rechte haben.
Fazit Die Erstellung war sehr einfach, und es macht Spaß, ein eigenes GPT-Modell nach und nach den eigenen Ideen und Wünschen anzupassen – ganz ohne Programmcode. Je spezifischer die Aufgabe, desto besser. Versuchen Sie, so viel Informationen und Material wie möglich bereitzustellen. Mit jeder Nutzung lernt man selbst hinzu und passt die Feinheiten an. Aber nicht alles wird immer berücksichtigt, das ist manchmal etwas frustrierend, wenn die Vorgabe »Schwarz auf Weiß« ist und die KI dann »Weiß auf Schwarz« generiert. Aber wir befinden uns immer noch in der Entwicklungsphase von KI-Tools, und es wird nur eine Frage der Zeit sein, bis wir Ergebnisse ganz nach unseren Wünschen erhalten. Noch sind die Ergebnisse aus dem Type Crafter eher zur Inspiration geeignet. Egal wie oft ich vorgebe, dass das Ganze minimalistisch, schwarz auf weiß und vektorisierbar gestaltet werden soll, die KI spart nicht an feinen Details und opulenten Designs. Trotz mehrfacher Aufforderung sind die Buchstaben alles andere als »schlicht« und ohne 3D oder Perspektive. Möchte man aber den ganzen Schriftsatz in einem Bild generieren, funktioniert es schon besser. Hier fokussiert sich die KI mehr auf das Schriftdesign als auf zu viele Details.
Trotz der aktuellen Probleme und Einschränkungen kann das Erstellen von GPTs mit einem der marktführenden LLMs und multimodalen KI-Modellen in der Zukunft viele neue Möglichkeiten eröffnen – besonders für Kreative.
Teilen Sie Ihre Ergebnisse! Sie haben etwas mit dem Type Crafter erstellt, das sich sehen lassen kann? Dann teilen Sie es gerne über Social Media, und markieren Sie den Verlag und mich. Ich teile das gerne und möchte natürlich sehen, was andere mit dem Modell erstellen können.
Der Schriftzug wurde mit dem Wunsch nach einer kursiven Schriftart ohne Serifen erzeugt. Das »a« und das »ft« sind noch verbesserungswürdig, aber der Schriftzug wirkt sehr ausgewogen und durch den 3D-Effekt sehr modern.
In den folgenden Abbildungen sehen Sie weitere Ergebnisse aus dem Type Crafter.
Praxis: Eigene GPTs erstellen | 215
Alle Bilder wurden über das GPT »Type Crafter« in ChatGPT generiert
Meine Tipps und Erfahrungen ChatGPT kommt bei mir fast täglich zum Einsatz. Auch wenn ich es für so ein großes Projekt wie dieses Buch nicht zentral einsetze, ist es für kleinere Aufgaben perfekt geeignet. Hier mal eine kleine Zusammenfassung und dort einmal das Ergänzen einer Liste spart sehr viel Zeit. In kreativen Projekten arbeite ich mittlerweile sehr gerne mit dieser KI. Sie hilft mir, meine Ideen in Worte zu fassen und mehr Klarheit über meine Gedanken zu erhalten. Es macht Spaß, Namensvorschläge zu generieren oder Bilder im Laufe eines Chats zu erzeugen.
OpenAI Prompt Examples Schauen Sie einmal auf platform.openai.com/examples vorbei, und lassen Sie sich von den zahlreichen Beispielen für ChatGPT inspirieren, direkt von den Entwicklern.
Auch wenn die Bildgenerierung noch eingeschränkt ist, nutze ich gerne die generierten Prompts der Bilder, die mir gefallen, um sie in Midjourney und Co. einzusetzen. Auch hier gilt: Je spezifischer man promptet und je mehr Informationen man bereitstellt, desto besser werden die Ergebnisse. Um alle wichtigen Aspekte abzudecken, kann ChatGPT dazu animiert werden, Fragen zu stellen, was es von reinen Bild-KIs abhebt. Erstellen Sie sich eigene GPTs für immer wiederkehrende Aufgaben. So müssen Sie die Grundelemente nur einmal einbringen und können beim nächsten Mal direkt loslegen.
Probieren Sie einmal die Sprachsteuerung aus In der App auf Ihrem Smartphone/Tablet können Sie mit ChatGPT sprechen – und es antwortet per Sprachausgabe. Rechts neben dem Texteingabefeld sehen Sie das Kopfhörersymbol . Wählen Sie eine Stimme aus, und Sie können direkt Ihre Wünsche und Fragen mitteilen.
Am Ende ist es wahrscheinlich die Kombination verschiedener Kommunikationswege, mit der Sie KI ideal in den Arbeitsalltag integrieren. Hinterfragen Sie alles, was die KI erzeugt. Sie »halluziniert« sehr gerne, und selbst mit der Suchfunktion im Internet ist es nicht sicher, dass die Ergebnisse korrekt sind (und nicht alles, was im Internet steht, ist korrekt). Auch hier gilt, eigenes Fachwissen zu besitzen oder die Fakten nachzuschlagen, bevor man etwas veröffentlicht. Link zur Webseite chat.openai.com
ChatGPT 4.0 | 217
Adobe Firefly (Webanwendung) Ein richtiger Allrounder ist die multimodale KI von Adobe. Sie ist quasi wie ein Softwarepaket aus KI mit verschiedensten Möglichkeiten, diese zu nutzen. Adobe hat seine KI mit lizenzfreiem Material und auch mit Bildern aus der eigenen Bilddatenbank trainiert und wirbt damit, dass die Verwendung dadurch kommerziell sicher und frei von Bedenken bezüglich Urheberrechtsverletzung ist. Auf der Webseite kann man sehen, welche Modelle in Arbeit und geplant sind. Folgende Möglichkeiten gibt es bereits: J J J J
Text zu Bild Generative Füllung Texteffekte Generative Neufärbung von Vektorgrafiken
Das sind die aktuellen und geplanten Modelle von Adobe Firefly.
218 | Kapitel 5: KI-Programme im Kreativalltag
Zugang zur KI Wer sowieso schon mit Adobe-Programmen arbeitet und eine Adobe-ID hat, kann sich auf der Webseite einloggen und direkt loslegen. Sie können sich aber auch über Google oder andere Plattformen und per E-Mail registrieren und anmelden. Außerdem wurden bereits viele KI-gestützte Funktionen in die Adobe-Programme integriert (siehe Abschnitte zu Illustrator und Photoshop). Hier wollen wir uns aber auf die Webanwendung konzentrieren. Seit dem 1. November 2023 hat Adobe ein Creditsystem eingeführt, mit dem die genutzten KI-Tools »bezahlt« werden. Abonnent*innen (auch mit kostenlosen Abos) erhalten jeden Monat frische Credits – die Anzahl hängt vom jeweiligen Abo ab und kann auf der Webseite eingesehen werden. Die Credits gelten auch für die programminternen Funktionen wie z. B. »Generatives Füllen« in Photoshop. Sind alle Credits verbraucht, wird die Nutzung der Tools gedrosselt. Informationen zu dem Creditsystem finden Sie in der Hilfe von Adobe und in Ihrem Adobe-Profil.
Nutzung der KI
Bild links Midjourney, rechts Firefly Generative Füllung
Für Text zu Bild können Sie direkt im Header der Webseite etwas eintippen (sogar auf Deutsch) oder ein Bild aus der Galerie anklicken und sich anzeigen lassen, welche Einstellungen dafür getätigt wurden. So können Sie ganz ohne Programminstallationen von den wirklich praktischen Funktionen wie »Text zu Bild« und »Generative Füllung« profitieren. Letzteres ist zwar etwas eingeschränkter als in Photoshop selbst (ohne Prompt), aber liefert trotzdem sehr gute Ergebnisse, wie in folgendem Beispiel:
Das Ergebnis von »Generative Füllung« im Browser ist vielversprechend. Hier habe ich die Bohnen in der Kaffeetasse in Kaffee verwandelt. Leider unterstützt die Funktion keine Textprompts.
Adobe Firefly (Webanwendung) | 219
PRAXIS Mit Schrift arbeiten Der Bereich Typografie ist im Bezug auf KI noch recht überschaubar, aber Adobe hat einige praktische Tools entwickelt, um schneller oder besser mit Schrift zu arbeiten: J
J J
J
Schriften anhand von Pixelbildern finden, indem man sie auf fonts.adobe.com hochlädt und sich Alternativschriften vorschlagen lässt, die man direkt aktivieren und im Design nutzen kann Texteffekte mit Adobe Firefly mittels Textprompts erzeugen unformatierte Texte mit Hilfe von vorgefertigten Stilpaketen und Absatzformaten automatisch in InDesign formatieren die neue »Retype«-Funktion in Adobe Illus trator (dazu gleich mehr)
Wenn Sie sich etwas mit Coding auskennen und etwas experimenteller mit Schrift arbeiten möchten, bietet sich der Open-Source-Generator für SVG-Typografie magenta.tensorflow.org/ svg-vae an.
Schriftsuche und Schriftmischung Sie brauchen Inspiration und Unterstützung bei der Schriftsuche und Schriftmischung? Dann probieren Sie Mixfont unter mixfont. com oder Fontjoy unter fontjoy.com aus.
Bild generiert mit Adobe Firefly Texteffekte
Die Texteffekte von Adobe Firefly bringen ein spielerisches Element in die Typografie, und
für den einen oder anderen Zweck haben Sie schnell einen Schriftzug erstellt, für den Sie in 3D definitiv länger gebraucht hätten. Bisher gibt es nur ein paar Schrifttypen zur Auswahl, aber Sie können mit Hilfe von Beispielen und eigenen Prompts kreativ werden.
Hier habe ich in Adobe Firefly einfach das Beispiel »Pink-goldener Ballon« ausgewählt und die Hintergrundfarbe auf transparent gestellt. Sie haben im Generator weitere Einstellmöglichkeiten und können somit den Schriftzug nach Ihren Wünschen gestalten.
220 | Praxis: Mit Schrift arbeiten
Schrift generieren mit Ideogram Mein GPT-Modell, den Type Crafter, haben Sie in diesem Kapitel bereits kennengelernt. Die Darstellung von Schrift ist dort noch ausbaufähig. Zukünftig werden KI-Modelle Schrift immer besser darstellen können, die Ansätze sind schon da, wie beim Bildgenerator namens Ideogram. Sogar Produktdesigns sind mit diesem Modell möglich, auch wenn die Schrift bei mehr Details im Bild undeutlicher wird. Lassen Sie sich von den Beispielen anderer auf der Webseite inspirieren, übernehmen Sie Prompts, die funktionieren, und passen Sie diese nach eigenem Ermessen an. Das öffnet die Türen für spannende Logodesigns und auch typografische Experimente und Designs für verschiedenste Anwendungszwecke. Für einfache Textdarstellungen und Texteffekte können Sie das kostenlose KITool Ideogram auf ideogram.ai nutzen: prompt »Eat, sleep, design, repeat« – modern brush calligraphy, simple vector, t-shirt design, 2d flat
Es braucht aber manchmal etwas Geduld. Kurze und häufig vorkommende Worte kann die KI besser darstellen, wie in diesem Beispiel.
Zukünftig werden andere Modelle wie Midjourney, DALL-E und Stable Diffusion in der Darstellung von Schrift aufholen – zumindest haben es schon einige Anbieter angekündigt. Es lohnt sich also, immer wieder auszuprobieren, wie das KI-Modell der Wahl Schrift generiert und wie man diese Designs weiterverwenden kann.
Tipp zum Erstellen eigener Schriften Haben Sie, mit oder ohne KI, eine Schrift gestaltet und wollen sie ausprobieren? Dann setzen Sie das kostenlose Webtool Calligraphr auf calligraphr.com ein. Damit können Sie Ihre Schrift ganz einfach als Schriftdatei exportieren und in das Layoutprogramm Ihrer Wahl importieren oder mit anderen teilen. Das Programm funktioniert ganz ohne KI, ist aber eine gute Ergänzung im KI-generierten Schriftdesign.
Mit Ideogram können Sie bisher gute Ergebnisse mit englischen Begriffen und Namen erreichen.
Praxis: Mit Schrift arbeiten | 221
Erste Schritte mit Adobe Firefly Die Nutzung im Browser ist sehr intuitiv und braucht keinerlei Vorkenntnisse in dem Bereich. Zwar ist alles auf Deutsch, aber manche Stile wirken seltsam übersetzt. Die Funktion »Negativprompts« unterstützt aktuell nur die englische Sprache. Egal welches Tool Sie nutzen, es wurde den Usern sehr einfach gemacht.
Screenshot der Webanwendung von Adobe Firefly Text zu Bild auf dem iPad
Schauen wir uns das »Text zu Bild«-Tool und dessen Funktionsumfang genauer an. Um zu starten, habe ich eines der Beispielbilder auf der Startseite angeklickt und komme damit zum User Interface zum Generieren von Bildern. Oben rechts können Sie das Modell wählen – z. B. das Firefly-Image-2-Modell, das speziell für das Generieren von Fotos trainiert wurde. Auf der rechten Seite finden Sie sämtliche Einstellmöglichkeiten zum Anpassen des generierten Bildes. Unten können Sie den Prompt unter »Beschreibung« anpassen und sehen auch, welche Einstellungen und Stile aktiv sind.
Das User Interface von Adobe Firefly ist sehr benutzerfreundlich. Man kann auf Knopfdruck Format, Stile und weitere Gestaltungselemente auswählen und das Bild entsprechend aktualisieren. Sie können ein Referenzbild hochladen oder es von einer Galerie auswählen. Fotoeinstellungen sind ebenfalls möglich.
Was besonders ist: Sie können Bilder herunterladen oder direkt in Ihre Adobe-CloudBibliothek hinzufügen, ähnlich wie bei Adobe Stock. So können Sie die Bilder direkt in der gesamten Cloud weiterverwenden. Außerdem können Sie das generierte Bild direkt an die Bearbeitungsfunktionen übergeben oder in Adobe Express öffnen, um es z. B. für Social Media weiterzuverarbeiten.
222 | Kapitel 5: KI-Programme im Kreativalltag
Bild links »Bearbeiten«, Bild rechts »Veröffentlichen«
Schauen Sie einmal in die Möglichkeiten, die Ihnen angeboten werden, wenn Sie ein Bild ausgewählt haben.
Das Bild gefällt, ist aber noch nicht ideal? Dann ändern Sie einzelne Bereiche mit »Generative Füllung«, oder lassen Sie sich ähnliche Bilder anzeigen. Sie können das ausgewählte Bild als Stilreferenz nutzen und dem Prompt damit hinzufügen. Oder speichern Sie das Bild in Ihrer Bibliothek, um es in den zahlreichen Adobe-Programmen weiterzuverwenden. Adobe bietet bereits eine sehr große Palette an Stilen an, die man zur Bildgestaltung verwenden kann. Es können mehrere Stile, Materialien, Techniken uvm. gleichzeitig angewandt werden. Fügen Sie diese Schritt für Schritt hinzu, und beobachten Sie, was sich am Bild verändert. Nutzen Sie zu viel auf einmal, bekommen Sie kein Gefühl dafür, was die einzelnen Einstellungen in Ihrem Bild bewirken. Die Vorschaubilder der einzelnen Effekte zeigen, was unter den Begriffen verstanden wird – anders als bei Midjourney und Co. Das hilft sehr bei der Bildgestaltung, und so kann man auch schnell ein Bild in mehreren Stilen generieren, ohne groß von Neuem zu beginnen. Bei der Entwicklung eines Cocktails mischen Sie auch nicht sofort alles hinein, was die Bar so anbietet, sondern kombinieren einzelne Zutaten und probieren, bevor Sie etwas Neues hinzufügen. Bevor Sie auf »Aktualisieren« gehen, speichern Sie sich lieber vorher die Bilder, die Ihnen bisher zugesagt haben. Denn momentan gibt es kein Zurück mehr und auch keine Galerie der bisher generierten Bilder. Zwar können Sie über den Browser den ZurückButton nutzen, um sich die vorher generierten Bilder anzuschauen – das ist aber nicht von Dauer und nach dem Schließen des Browserfensters vorbei.
Kreativitätstechniken mit Bildern kombinieren Erinnern Sie sich an die Kreativtechniken aus Kapitel 2? Probieren Sie das doch einfach hier mit Bildern aus, indem Sie z. B. das komplette Gegenteil von dem, was Sie sich vorgestellt haben, generieren. Sie dachten an eine futuristische Szene mit starken Farben und Leuchteffekten? Dann wandeln Sie das Ganze doch einmal in ein nostalgisches Bild mit Abnutzungserscheinungen und verblassten Farben um. Oder wie sieht das Bild aus der Sicht eines Träumers, einer Realistin oder eines Kritikers aus? Dafür eignen sich die vorgegebenen Stile von Adobe sehr gut, denn so lassen sich schnell und einfach Stil und Materialien verändern, ohne den Textprompt anzupassen.
Erweiterte Techniken im KI-Prompting Die Auflistung an Stilen und Effekten in Adobe Firefly ist eine tolle Inspiration und lädt zum Experimentieren ein, wie sich das gewünschte Motiv in den verschiedensten Stilrichtungen, Farben und Lichtverhältnissen verhält. Eine einzige Einstellung kann ein Bild bereits ganz anders wirken lassen. Um die Idee zu verdeutlichen, zeige ich Ihnen ein Beispiel mit diesem Prompt und Kameraeinstellungen:
Bilder mit Adobe Firefly generiert
prompt High-Fashion-symmetrisches Nahaufnahme-Porträt-Shooting in tropi scher Landschaft eines ausdrucksstarken Menschen in minimalistischer weißer Klei dung, anamorphotischem Objektiv, ultrarealistisch, hyperdetailliert, natürliche Haut – Foto, f/1.4, 1/250s, 80mm
Beim linken Bild habe ich keine weiteren Einstellungen gemacht, außer die im Prompt genannten Fotoeinstellungen. Beim rechten Bild habe ich die Beleuchtung in »Starkes Licht« verändert. Das Bild hat plötzlich eine ganz andere Wirkung erhalten. Das erste wirkt weich, etwas zurückhaltend, harmonisch – während das zweite leuchtend, stark und intensiv ist.
224 | Kapitel 5: KI-Programme im Kreativalltag
prompt Editorial-Porträt-Shooting in Unterwasser-Landschaft eines ausdrucksstarken natürlichen Models in minimalistischer weißer Kleidung, anamorphotischem Objektiv, ultrarealistisch, hyperdetailliert, natürliche Haut – Foto, Starkes Licht, f/4, 1/250 s, 80 mm
PRAXIS Produktfotografie mit Hilfe von Firefly Firefly ist im Generieren von fotoechten Bildern eines meiner Lieblingstools geworden. Daher möchte ich das Tool einsetzen, um ein Produkt auf eine kreative Art und Weise darzustellen. Hier gibt es verschiedene Herangehensweisen: J
J
J
prompt Tilt-Shift-Fotografie, ein brauner Kaffeebeutel steht in einem Miniatur-Wald, Kaffeebohnen sind der Waldboden, MiniaturBäume sind Kaffeepflanzen, Nachhal tigkeit, natürliche Farben, fotorealistisch, Produkt fotografie, Editorial – Foto, Produktfotografie, schön, chaotisch, f/4, 1/250 s, 28 mm
die Szene und den Hintergrund mit KI generieren und das Produkt passend dazu ablichten und einfügen das vorhandene Produktfoto in eine KI-generierte Szenerie einbauen (siehe Praxisbeispiel »Mockups mit Flair erstellen«) KI-generierte Bilder dienen als Shootingvorlage und Briefing sowie zum Präsentieren der Idee intern, bei den Kunden und Kundinnen oder der Zielgruppe.
Dabei werden wir nicht alles der KI überlassen können, sondern sind auch auf unsere Fähigkeiten in der Fotografie und mit Programmen wie Photoshop angewiesen. Bildidee Zunächst braucht es eine Bildidee, wie man das Produkt am besten in Szene setzen kann. Als Beispiel nehme ich unsere nachhaltige Kaffeerösterei und deren neues Produkt, verpackt in einem bedruckten braunen Papierbeutel. Dieses Produkt soll nun in Szene gesetzt werden. Um die Nachhaltigkeit zu betonen, ist die Idee, die Verpackung in einen Wald aus Kaffeebohnen und Kaffeepflanzen zu stellen und das Ganze wie eine Miniaturwelt wirken zu lassen. Ich möchte die ganze Szene generieren und später das Packaging auswechseln. Schließlich bin ich nach ein paar Versuchen zu folgendem Prompt und Bild gekommen.
Diese Bildidee ist bereits ein guter Ausgangspunkt.
Das Bild hat eine schöne Tiefenschärfe, im Hintergrund ist der Wald. Das Produkt, eingerahmt von Pflanzen, steht im Mittelpunkt der Szene. Die Bohnen am Boden geben eine schöne Struktur und bringen das Thema Kaffee zur Geltung. Das Produkt könnte hier nun mit dem echten Produktfoto ausgetauscht werden. Die Bildidee steht, nun kann der kreative Teil kommen, das Ausprobieren von Lichtsituationen und anderen Gestaltungsmitteln. Da wir hier ein nachhaltiges Produkt haben, sollten die Stilmittel sorgsam ausgewählt werden.
226 | Praxis: Produktfotografie mit Hilfe von Firefly
Kreatives Gestalten mit Effekten und Stilen Lassen Sie uns etwas Neues ausprobieren und der Kreativität und Experimentierfreudigkeit freien Lauf lassen. Dafür müssen einige Einstellungen und Teile des Prompts gehen, sonst kommen die neuen Gestaltungsideen nicht zur Geltung. Die visuelle Intensität ist auf 50 %, die Stärke des Stils auf 50 % eingestellt. prompt Foto von einem braunen Kaffee beutel in der Mitte, drumherum sind wenige Kaffeebohnen, Kaffeeblätter, Kaffeetasse, Nach haltigkeit, Ordnung, Minimalistisch, ästhetische Produktfotografie, Editorial – Foto, Knolling, Schön Das Bild wirkt ästhetisch, aufgeräumt und schön belichtet. Einzelne Elemente wie der Keks und das Packaging können einfach ausgetauscht werden.
Fazit Produktfotografie und Bildbearbeitung können sehr von KI profitieren. Firefly ermöglicht es, Bildideen und -konzepte zu entwickeln und zu präsentieren, Vorlagen für Fotoshootings zu erstellen und verschiedene Lichtsituationen, Kompositionen und Stile zu testen. Am einfachsten wird es sein, das Bild zu generieren und anschließend das Produkt passend dazu zu fotografieren.
Das Packaging ist in der Mitte und Kaffee in Form von Blättern und Bohnen drumherum angeordnet.
Je komplexer die Szenen, desto mehr hat die KI Probleme, diese umzusetzen. Daher habe ich die Angaben zum Bildinhalt drastisch verringert. prompt Brauner Kaffeebeutel, Kaffee, Nachhaltigkeit, Ordnung, minimalistisch, ästhe tische Produktfotografie, Editorial – Foto, Knol ling, Schön
Firefly eignet sich durch sein Interface sehr gut für kreative Experimente. Je einfacher Sie den Prompt und die Anwendung der Stile und Effekte halten, desto besser sind meist die Ergebnisse. Sie können solche Fotos auch als Mockups nutzen, wenn es noch keine Produktfotos gibt. Die Fotoeinstellungen von Firefly bringen mehr Kontrolle und sehr realistische Ergebnisse, die mit dem Herunterregeln der visuellen Intensität noch realistischer wirken.
Praxis: Produktfotografie mit Hilfe von Firefly | 227
Meine Tipps und Erfahrungen Durch das Adobe-Abonnement profitiert man von den Möglichkeiten mit den KIgestützten Werkzeugen in den Programmen. Doch die Webanwendung mit weiteren spannenden generativen KI-Tools ist wirklich gut gemacht, und die Qualität der erzeugten Bilder wird immer besser – besonders im Bereich Fotografie. Trotz Betastatus (in dem sich so viele KI-Modelle zurzeit befinden) kann man Firefly im Kreativalltag bereits professionell einsetzen. Die Eingabemaske bietet viele Einstellmöglichkeiten, was Firefly etwas benutzerfreundlicher macht als andere Bild-KI. Doch sehe ich hier ein Problem: Man kann auf Knopfdruck Stile, Effekte, Farben und noch viel mehr hinzufügen – das verleitet natürlich dazu, die Bilder unnötig mit Effekten zu schmücken. Das mag bei der ein oder anderen Anwendung passen, kann aber schnell zu viel werden, und dann verfehlen die Bilder ihren Zweck – zumindest in der angewandten Kunst wie dem Design. Für unerfahrene Nutzer und Nutzerinnen ist dieses Interface ideal, denn man muss sich keine Gedanken um Fachbegriffe machen und kann das Ganze sehr intuitiv ausprobieren und ohne große Promptsammlungen zu guten Ergebnissen kommen. Die besten Ergebnisse erhalte ich, wenn ich so wenige Effekte und Stile wie möglich nutze. Mit der Version »Firefly Image 2« kamen wesentliche Neuerungen für generierte Fotografien hinzu und damit auch weitere Einstellmöglichkeiten, die man mit der Kamera machen könnte, wie die Blende, die Verschlussgeschwindigkeit (Belichtungszeit) und das Sichtfeld (Brennweite). Um sich die Werte und Eingaben für spätere Motive zu merken, muss man sich Screenshots machen, denn anders als z. B. bei Midjourney hat man hier nicht alle Parameter in einem Textprompt. Wer gerne mehrere Funktionen der Browser-Anwendung vereint nutzen möchte, kann auch mit der Webversion oder der App von Adobe Express arbeiten und dort direkt im Layout mit Generativer Füllung, Text zu Bild, Text zu Vorlage (Beta) und Texteffekten arbeiten. Firefly ist bildrechtlich auf der »sicheren« Seite – zumindest wirbt Adobe damit, dass das Modell mit Adobe-Stock-Bildern und lizenzfreiem Material trainiert wurde. Gerade für den professionellen und gewerblichen Gebrauch KI-generierter Bilder ist diese Tatsache ein wichtiger Eckpfeiler bei der Auswahl des richtigen KI-Tools. Link zur Webseite firefly.adobe.com
228 | Kapitel 5: KI-Programme im Kreativalltag
Adobe Photoshop (Firefly) Adobe hat zwei verschiedene KI-Modelle, die in den Programmen verschiedene Funktionen erfüllen: Adobe Sensei und Firefly. Auf der Webseite von Adobe finden Sie eine Auflistung der Programme und welche Sensei-Funktionen diese beinhalten (adobe. com/de/sensei/creative-cloud-artificial-intelligence.html). Zusätzlich kommen die Fire fly-Funktionen hinzu, die im generativen Bereich ergänzen. KI steckt schon länger in den Adobe-Programmen, nur ist es jetzt eine ganz neue Art der Anwendung von KI, die uns Kreativen mehr Möglichkeiten bietet.
Zugang zur KI Um die Programme der Creative Cloud von Adobe nutzen zu können, benötigt man ein Abonnement der einzelnen Programme oder der ganzen Cloud. Auch die KI-Funktionen innerhalb von Programmen wie Photoshop kosten Credits. Informationen darüber finden Sie in diesem Kapitel unter »Adobe Firefly«. Mit der Version 2024 hat die »Generative Füllung« ihren Weg aus der Betaversion von Photoshop in das Programm gefunden und kann ohne weitere Einstellung genutzt werden.
Nutzung der KI Es reicht, Photoshop zu starten und entweder ein vorhandenes Bild oder ein neues Dokument zu öffnen. Um eine generative Füllung via Prompt zu benutzen, muss zunächst eine Auswahl angelegt werden. Welches Werkzeug Sie dafür nutzen, ist unerheblich, Hauptsache, es endet in einer gestrichelten Auswahl – und schon erscheint in der kontextbezogenen Taskleiste die Schaltfläche »Generative Füllung«.
Seit einigen Versionen hat Photoshop die kontextbezogene Taskleiste, die man im Menü unter »Fenster« ganz unten findet. Standardmäßig ist diese eingeblendet, und die Funktionen ändern sich je nach Werkzeug, das man gerade benutzt.
Photoshop wird mit diesem KI-Modell nicht nur der Fotoretusche gerecht, sondern man kann damit sehr gut KI-Bilder »retten«, indem man unerwünschte oder unklare Details ersetzt oder entfernt. Je besser das Ausgangsmotiv, desto besser auch die Ergebnisse. Der Workflow mit der »Generativen Füllung« fühlt sich natürlich und sehr intuitiv an. Bisher kam ich ohne viele Worte aus, besonders im Entfernen von Objekten spart das Tool unheimlich viel Zeit. Nicht immer klappt das Generieren von neuen Objekten, dies erfordert etwas Geduld oder ist besser im Ursprungs-Bild-KI-Tool zu machen, wie es in Midjourney z. B. möglich ist.
Adobe Photoshop (Firefly) | 229
Erste Schritte mit Firefly in Photoshop
Screenshot aus dem Programm Adobe Photoshop
Haben Sie ein Bild geöffnet, eine Auswahl gemacht und auf »Generative Füllung« geklickt, können Sie einen Prompt eintippen oder direkt auf »Generieren« klicken. Bei folgendem Beispiel habe ich einen Stift in die Illustration eingefügt. Die KI hat diesen sogar in die Grafik integriert, weil ich eine ausreichend große Auswahl gelassen habe.
Hat man einen Prompt eingegeben (man kann das Textfeld auch frei lassen und schauen, was passiert), erscheint im Dokument direkt eine neue generative Ebene.
Das Fenster »Eigenschaften« verändert sich, und hier können Sie die bisher generierten Ergebnisse ansehen, den Prompt anpassen oder sich direkt in der Taskleiste mit den Pfeilen durch die Ergebnisse klicken. Ist die Ebene einmal gerastert, wird sie wie eine ganz normale Ebene behandelt, und die Auswahlmöglichkeit der Varianten verschwindet. Sie können immer wieder auf »Generieren« klicken, um weitere Varianten zu erhalten und die beste davon auszuwählen. Sollten bei der zweiten Runde gar keine brauchbaren Ergebnisse dabei sein, können Sie den Prompt anpassen oder einen Prompt eintippen, falls das Feld vorher leer war. Solange Sie bei dieser Ebene bleiben, bleiben Ihnen die bisherigen Varianten erhalten, auch nach einem Wechsel des Prompts. Manchmal hilft es auch, die Auswahl genauer oder grober zu machen, um ein besseres Ergebnis zu erhalten.
230 | Kapitel 5: KI-Programme im Kreativalltag
Erweiterte Techniken im KI-Prompting Photoshop selbst gibt immer wieder Tipps für besseres Prompting. Einer davon ist, Begriffe wie »ersetzen, hinzufügen, ändern« zu vermeiden und besser das zu beschreiben, was man generieren möchte. Mit einfachen und klaren Worten habe ich bisher die bessere Erfahrung gemacht als mit ganzen Sätzen.
Bilder mit Adobe Photoshop bearbeitet
Sollte das Ergebnis nicht Ihrer Erwartung entsprechen, dann probieren Sie zunächst, den Stil des generierten Objekts zu benennen. Haben Sie zum Beispiel eine Illustration, und die KI generiert ein fotografiertes Objekt, dann fügen Sie »Illustration of« oder »Illustration einer/eines« oder einfach nur »Illustration« hinzu. Sie können Farben, gewünschte Details und Materialien benennen. Normalerweise erkennt die KI den Bildstil sehr gut, aber nicht immer. Dann können Sie immer noch nachhelfen und die KI mit dem Prompt in die richtige Richtung lenken.
Das Hauptmotiv zeigt einen Kraken-Koch, der Pizza zubereitet. Die Orange passt nicht wirklich dazu, aber Größe und Stil würden zu einer Tomate passen. Damit die KI den Stil der Orange übernimmt, habe ich eine grobe Auswahl erstellt und einfach »Tomate« in das Promptfeld eingetippt. Das Ergebnis passt perfekt zum Rest des Bildes.
Meine Tipps und Erfahrungen Auch wenn die KI Deutsch als Promptsprache versteht, habe ich mit englischen Prompts bessere Erfahrungen gemacht. Die Generierung von einzelnen Bereichen in einem vorhandenen Bild ist die große Stärke von Photoshop. Für komplett neue Bildgenerierung ist die Text-zu-Bild-Webversion besser geeignet, die Ergebnisse direkt in Photoshop sind weniger beeindruckend, und die Funktion bietet weniger Möglichkeiten und Einstellungen als das Web-UI.
Adobe Photoshop (Firefly) | 231
Bearbeiten Sie mit Photoshop Ihre KI-generierten Bilder, Illustrationen und Fotos, und Sie werden wahre Freude damit haben. Ohne viele Anweisungen adaptiert die KI den Bildstil des gesamten Bildes, nimmt Rücksicht auf Licht, Farben und Komposition. Es überrascht mich jedes Mal aufs Neue, wenn Photoshop ohne viele Worte das macht, was ich im Sinn hatte. Lassen Sie sich nicht entmutigen, sollte das Ergebnis nicht gleich ideal passen. Geben Sie der KI ein paar Runden, oder versuchen Sie, den Prompt anzupassen.
Bild generiert mit Midjourney, erweitert in Photoshop
Das generierte Ergebnis orientiert sich in Größe und Form an der Auswahl. Sollten Sie etwas entfernen wollen und an dieser Stelle etwas Neues generieren, dann sollten Sie das in zwei verschiedene Schritte aufteilen, wenn sich beide Elemente in ihrer Größe und Form unterscheiden. Das Entfernen von Objekten klappt bei mir am besten, wenn ich nichts in das Promptfeld eingebe. Möchten Sie allerdings vorhandene Objekte nur anpassen oder verbessern, dann sollten Sie diese vorher nicht entfernen, sondern der KI mit einem Prompt mitteilen, was sie verändern soll. Die Erweiterung von Bildern ist sehr hilfreich, auch beim Neuausrichten von Bildmotiven, wie Sie in Kapitel 2 im Praxisbeispiel zum Bildaufbau bereits gesehen haben. Das gilt natürlich nicht nur für KI-Bilder.
Dieses Bild wurde zur linken Seite hin ohne Prompteingabe erweitert. Die KI hat Elemente aus dem rechten Bildbereich auf den neu generierten Inhalt adaptiert.
Sind Sie zufrieden mit dem generierten Ergebnis, dann rastern Sie die Ebene, denn sonst schießt Ihre Dateigröße in die Höhe, und das System wird langsamer. Die Ebene wird automatisch mit Ihrem eingegebenen Prompt benannt. Link zur Webseite und weiteren Informationen blog.adobe.com/de/publish/2023/05/23/photoshop-generative-fill-adobe-fireflygenerative-ai
232 | Kapitel 5: KI-Programme im Kreativalltag
PRAXIS Bildbearbeitung in Photoshop mit KI Das folgende Foto soll dazu dienen, die Möglichkeiten und Grenzen der Bildbearbeitung mit Adobe Firefly in Photoshop auszuprobieren. Ich würde gerne den Hintergrund mit ein paar Pflanzen auflockern. Außerdem soll die metallene Untertasse in eine passendere umgewandelt werden. Die Gabel auf dem Tisch soll herausretuschiert und dafür soll der freie Platz mit einer Obstschale gefüllt werden. Verwendete Werkzeuge Als Hauptwerkzeug wird die »Generative Füllung« verwendet, die sich in der kontextbezogenen Taskleiste befindet, sobald man eine Auswahl gemacht hat.
Fazit Besonders erstaunlich beim Ergebnis in der zweiten Abbildung ist, wie die KI mit transparenten Flächen wie dem Tisch umgeht. Die Lichtflecken auf der Person finden sich in der Pflanze wieder. Bei der Untertasse musste ich den originalen Finger wieder einfügen und den Schatten nachzeichnen. Die kleine Schale Himbeeren zu generieren, war etwas schwieriger und hat mehrere Anläufe gebraucht. Das Ergebnis ist beeindruckend und für den professionellen Einsatz geeignet.
Um genauere Auswahlen zu machen, wird das Objektauswahlwerkzeug genutzt, das dank KI Objekte erkennt und damit schnell eine sehr genaue Auswahl ermöglicht. Weitere Auswahlwerkzeuge für grobe Auswahlen sind das Auswahlellipse-Werkzeug , Auswahlrecht eck-Werkzeug sowie das Poly gon- Lasso- Werkzeug . Zum Ausbessern der Ergebnisse verwende ich das Entfernen-Werkzeug auf einer neuen leeren Ebene, das ebenfalls KIgestützt ist. Im nebenstehenden Ebenen-Bedienfeld sehen Sie die verschiedenen Ebenen, die zur Bildbearbeitung genutzt wurden. Das Werkzeug »Generative Füllung« erstellt automatisch eine Ebenenmaske, die der vorher von Ihnen erstellten Auswahl entspricht. Selten ist es notwendig, die Ergebnisse mit der Maske dem Gesamtbild anzupassen. Der Ebenenname entspricht dem Prompt, der zur Erzeugung des Bildes verwendet wurde.
Das Ebenen-Bedienfeld besteht aus generierten Ebenen und aus Korrekturebenen, die von mir zur Nachbesserung der generierten Ergebnisse erstellt wurden.
Praxis: Bildbearbeitung in Photoshop mit KI | 233
Adobe Illustrator (Firefly) Aktuell noch in der Betaphase, aber seit Illustrator 2024 gibt es nun die Möglichkeit, Bilder zu generieren. Was sehr neu in der Welt der generativen KI ist: Es sind Vektorgrafiken. Direkt im Programm erzeugt und bearbeitbar! Neben dem Generieren von Vektoren können auch vorhandene Vektorgrafiken schnell und einfach umgefärbt werden. Zudem gibt es noch weitere Betafunktionen wie Retype und Modell, die wir uns hier genauer anschauen werden.
Zugang zur KI Um mit Illustrator zu arbeiten, brauchen Sie das Creative-Cloud-Abo, oder Sie abonnieren das einzelne Programm ab Version 2024. Anschließend müssen Sie nur ein Dokument öffnen, und je nach Funktion, die Sie nutzen möchten, führen Sie verschiedene Schritte aus. Die KI-gestützten Funktionen in Illustrator eröffnen ganz neue Möglichkeiten und geben einen sehr guten Einblick in zukünftige Möglichkeiten zur Nutzung des Programms. Auch hier fallen für die KI-Funktionen Credits an.
Nutzung der KI Adobe Illustrator ist meistens das Programm der Wahl für alles, was an skalierbaren Grafiken erstellt werden soll. In dem Programm können Pixelbilder mit Vektorgrafiken kombiniert werden. Auch für 3D bietet das Programm einige nützliche Funktionen. In meinem Arbeitsalltag kommt Illustrator für folgende Tätigkeiten zum Einsatz: J J J J J J
Logodesign Icons, Piktogramme Illustrationen vektorisierte Muster kleinere 3D-Effekte Vektorisieren von Pixelbildern
Erste Schritte mit Firefly in Illustrator Schon seit längerer Zeit haben sich einige KI-gestützte Werkzeuge in Illustrator nützlich gemacht, wie die Marionettenverkrümmung, die globale Bearbeitung, das Rundungszeichenstift-Werkzeug und die Freihandverläufe. Doch es gibt nun einige neue Funktionen, die das Arbeiten mit Illustrator auf ein neues Level bringen (bzw. es künftig tun werden). Alleine das Generieren von Vektorgrafiken direkt im Programm ist ein Meilenstein und wird das Suchen nach Grafiken in Stockagenturen oder frei verfügbaren Icons bald überflüssig machen.
236 | Kapitel 5: KI-Programme im Kreativalltag
Screenshot aus dem Programm Adobe Illustrator
Mit Retype Texte in Bildern erkennen und ersetzen Aktuell in der Beta, aber mit beeindruckenden Ergebnissen: das Umschreiben von Texten in Pixelgrafiken. Häufig passiert es, dass man z. B. mit KI etwas erzeugt, aber der Text nicht korrekt geschrieben ist. Oder Sie haben ein Pixelbild mit Text und möchten diesen ändern. Dann kann Ihnen Retype dabei helfen. Öffnen Sie ein Pixelbild direkt in Illustrator, oder platzieren Sie das Bild auf Ihrer Zeichenfläche. Öffnen Sie nun das Fenster »Retype«, und markieren Sie Ihr Pixelbild. Klicken Sie auf »Öffnen«, und nun markiert Ihnen die KI den Text (bei mehreren Texten geht es einen nach dem anderen durch) und schlägt direkt passende Schriftarten aus der Adobe Cloud vor, um den aktuellen Text zu ersetzen.
Die KI macht automatisch eine Schriftsuche in der hauseigenen Schriftbibliothek, und Sie können den neuen Text als Vorschautext eingeben. Wählen Sie eine Schrift aus, klicken Sie auf »Anwenden« und dann auf »Beenden«, und Sie können im Bild den neuen Text eintippen.
Der erste Test war beeindruckend. Retype funktioniert am besten, wenn das Bild einen einfachen Hintergrund hat und der Text nicht perspektivisch ist. Feinheiten wie Verläufe im Text werden nicht übernommen, aber das lässt sich schnell selbst nachbessern. In der folgenden Abbildung sehen Sie das Ergebnis meines Beispiels. Wahrscheinlich wird die Auswahl an Schriften auf die Adobe Fonts Library begrenzt bleiben, aber da diese eine sehr große Schriftbibliothek bietet, stellt das weniger ein Problem dar. Sie können den Text jederzeit mit einer anderen Schrift formatieren. Es ist zu erwarten, dass später auch komplexere Bilder mit perspektivischen Schriften kein Problem mehr darstellen werden.
Adobe Illustrator (Firefly) | 237
Bild mit Midjourney generiert, bearbeitet mit Adobe Illustrator Retype
KI & DESIGN THE BOOK FOR DESIGNERS
Die KI hat hier ganze Arbeit geleistet, und der Text konnte vollständig ersetzt werden. Die Schriftvorschläge waren sehr passend und dem KI-generierten Original sehr nah.
Beim Untertitel hat die KI kein zusammenhängendes Wort erkannt und wollte jeden Abschnitt erneut als Text ersetzen. Daher habe ich das »THE« als Vorlage genutzt und den Rest des Texts mit einem farbigen Rechteck auf die Schnelle abgedeckt.
238 | Kapitel 5: KI-Programme im Kreativalltag
Screenshot aus dem Programm Adobe Illustrator mit dem Fenster »Modell«
Modell – der Gamechanger für Mockups direkt in Illustrator Eine weitere Neuerung ist Modell, eine Funktion, die Sie ebenfalls unter dem Menüpunkt »Fenster« finden. Sie bietet ein schnelles und einfaches Erzeugen von Mockups mit dem aktuellen Design. Sie benötigen nur die Vektorgrafik, die Sie auf das Mockup anwenden möchten, und das Mockup selbst. Sie können auch aus Vorschlägen von Adobe Stock wählen und diese aus dem Programm heraus lizenzieren und nutzen. Im Fenster »Modell« finden Sie eine Vorschau dieser Stockbilder und können zwischen verschiedenen Kategorien wählen.
So sieht es aus, wenn man die Grafik (hier ein Logo) markiert und dann auf die Schaltfläche »Modell« klickt. Man kann anschließend eines der Stockbilder auf die Zeichenfläche übernehmen und Größe sowie Lage der Grafik anpassen.
Bei ersten Versuchen mit Modell ergeben sich folgende Probleme: Die KI erkennt zwar Perspektiven und Rundungen, passt die Grafik aber nicht der Farbigkeit, Schattierung oder Farbstimmung des Mockups an. Außerdem kann man das Design nicht auf mehrere Flächen im Mockup-Bild platzieren, z. B. wenn man eine komplette Geschäftsausstattung zeigen möchte.
Adobe Illustrator (Firefly) | 239
Bild generiert mit Midjourney, Logo hinzugefügt mit Adobe Illustrator Modell
Es eignen sich dazu also eher Bilder, die nur eine Fläche zur Platzierung bieten und von der Beleuchtung her nicht allzu speziell sind. Ich habe mich für ein eigenes Mockup mit einer herausfordernden Lichtsituation und einem spiegelnden Objekt entschieden und es in Illustrator platziert. Ich habe diesmal das Logo und das Bild markiert, bevor ich auf die Schaltfläche »Modell« geklickt habe.
Am Beispiel dieser Tasse sieht man, wie die KI die Rundung erkennt und das Logo entsprechend verformt und anpasst. Nur ist der Glanz der Tasse etwas irritierend, und das Logo wird an der linken Seite etwas zu stark verzerrt. Das Logo wirkt »hineinplatziert« und nicht zum Bild zugehörig, was sich aber nachträglich über das Fenster »Aussehen« verändern lässt.
Gerade für Packaging-Designs wird diese Funktion sehr hilfreich sein, um das Design im Gestaltungsprozess zu testen oder für die Präsentation aufzubereiten. »Modell« wird eine Arbeitserleichterung für viele Kreative werden und spart den Weg zu Photoshop.
240 | Kapitel 5: KI-Programme im Kreativalltag
Screenshot des Fensters »Text zu Vektorgrafik« in Adobe Illustrator
Text-zu-Vektorgrafik für skalierbare Grafiken aller Art Das aufregendste KI-Feature ist das Erzeugen von Vektorgrafiken im Fenster »Text zu Vektorgrafik«. Sie können vorher aus verschiedenen Typen wählen, damit das Programm weiß, was es generieren soll. Außerdem können Sie noch weitere Einstellungen machen und einen Prompt eingeben. Aktivieren Sie die Funktion »An Stil der aktiven Zeichenfläche angleichen«, wenn Sie etwas innerhalb einer bestehenden Grafik generieren möchten.
Mit können Sie eine Grafik in Ihrem Dokument auswählen, an der sich die KI orientieren genutzt, das verschiedene Beispielsoll. Für diese Screenshots habe ich auch das Icon können Sie den Detailgrad von 1 bis 5 auswählen. Im Fenster prompts anbietet. Unter sieht man alle generierten Ergebnisse der Session und kann diese einzeln auf der Zeichenfläche platzieren.
Erstellen Sie ein neues Dokument, oder öffnen Sie ein vorhandenes. Öffnen Sie anschließend das Fenster »Text zu Vektorgrafik«, und machen Sie Ihre gewünschten Einstellungen. Geben Sie nun den Prompt ein. Ich habe für mein Beispiel »Szene« gewählt und folgenden Text eingegeben: prompt Handgezeichnete Kaffeetassen, Kaffeebohnen, Espressomaschinen, trendige Illustrationen, beige Farben
Als Zwischenschritt können Sie nun ein Rechteck mit dem Rechteck-Werkzeug aufziehen und dann auf »Generieren« klicken. Ziehen Sie keines auf, wird ein quadratisches
Adobe Illustrator (Firefly) | 241
Bilder mit Adobe Illustrator »Text zu Vektorgrafik« generiert
Bild erzeugt und eines der generierten Bilder als Vorschau platziert. Wie in Photoshop werden je Generierung drei Vorschläge gemacht.
Die Ergebnisse sind erstaunlich gut. Bei beiden Grafiken wurde der Detailgrad 5 eingestellt. Beides sind komplett bearbeitbare Vektorgrafiken.
Solche Illustrationen lassen sich sehr gut für die Gestaltung von Merch, Packaging oder für Sticker, Icons, Social Media uvm. nutzen. Doch wie sieht es mit Logodesigns aus? Diesmal wähle ich »Motiv« als Typ und stelle den Detailgrad auf 5. prompt Logodesign für eine moderne nachhaltige Kaffeerösterei, Farben Beige,
Bilder mit Adobe Illustrator »Text zu Vektorgrafik« generiert
Schwarz und Weiß mit grünen Akzenten, Kaffee und Natur vereint
Diese »Logos« sind so nicht 1:1 nutzbar, bieten aber eine Basis für eigene Entwürfe.
242 | Kapitel 5: KI-Programme im Kreativalltag
prompt Handgezeichnete Kaffeetassen, Kaffeebohnen, Espressomaschinen, trendige Illustrationen, beige Farben – Typ »Muster«, Detailgrad 5
Erweiterte Techniken im KI-Prompting
Bilder mit Adobe Illustrator »Text zu Vektorgrafik« generiert
Die beste Herangehensweise ist, vorher alle notwendigen Einstellungen zu machen und nicht zu vergessen, sich ein Rechteck im gewünschten Format zu platzieren, da das Motiv sonst quadratisch erzeugt wird und anschließend mühsam angepasst werden muss. Beim Prompting empfehle ich, mit einfachen und beschreibenden Worten zu arbeiten und dabei vom Groben ins Feine überzugehen. Einfach starten, schauen, was passiert, und dann nach und nach den Prompt, Detailgrad oder andere Einstellungen anpassen. Jeder Typ hat verschiedene Einstellmöglichkeiten. Kreieren Sie einfache Icons (siehe unten) bis hin zu Mustern oder sogar ganzen Szenerien.
Auch einfache Icons sind kein Problem für die KI. Links mit Detailgrad 1, rechts mit 3. prompt Kaffeebohne mit Pflanze – Typ »Symbol«, Detailgrad 1 & 3
Gefällt Ihnen ein Stil, können Sie diesen mit aus der im Dokument platzierten Grafik auswählen und als Referenz für weitere Generierungen verwenden. Probieren Sie auch die generative Neufärbung aus, um schnelle Farbvariationen zu erstellen, oder geben Sie direkt konkrete Farben vor.
Meine Tipps und Erfahrungen Bereits jetzt sind alle KI-Features in Adobe Illustrator beeindruckend und mit etwas Geduld für den professionellen Gebrauch verwendbar. Auch andere Adobe-Programme erhalten nach und nach neue KI-Tools oder haben diese bereits integriert, was die Adobe Creative Cloud für die Kreativbranche zukunftsfähig macht. Links zur Webseite helpx.adobe.com/de/illustrator/using/text-to-vector-graphic.html
244 | Kapitel 5: KI-Programme im Kreativalltag
PRAXIS Eigene Mockups erstellen und nutzen Die Präsentation von Designs hat meiner Erfahrung nach einen sehr großen Effekt auf die Gesamtwirkung. Seit jeher habe ich Mockups selbst gebaut, oft aus selbst erstellten Fotos oder Stockfotos, um meine Designs ansprechend und realitätsnah zu präsentieren. Dann kamen die kostenlosen Mockups, in die man mittels Smart-Objekten in Sekundenschnelle das eigene Design einsetzen kann. Doch es ist manchmal mühselig, kostenlose Ressourcen zu finden. Die Lösung? Mockups selber generieren – KI macht es möglich!
se Methoden können Sie ebenfalls gut für Ihre Mockups nutzen. Bleiben wir beim Beispiel der nachhaltigen Kaffeerösterei. Wir möchten das neue PackagingDesign oder auch das gesamte neue Corporate Design nun unseren Kunden und Kundinnen präsentieren. prompt Mockup für eine junge Kaffee marke, natürliche Farben, eine Produkt ver packung aus ungebleichtem Papier, mittig auf einem Podest, Kaffeebohnen liegen drumhe rum – Foto, Blende f/2.8
Mockups und ihre Einsatzgebiete Mockups sind realitätsnahe Darstellungen eines Designprodukts, die zeigen, wie es in einem realen Kontext aussehen würde. Kreative können sie nutzen, um eine klare Vorstellung vom finalen Erscheinungsbild eines Entwurfs zu geben, etwa bei Websites, Apps, Verpackungen oder Werbematerialien. Auch in Onlineshops wird oft mit Mockups statt mit Fotos gearbeitet, um reale oder digitale Produkte »greifbar« zu machen oder um Software und Apps innerhalb der verschiedenen Devices (Tablet, Smartphone, Laptop …) zu präsentieren. Gute Mockups sollten das Design und die Stimmung unterstützen, aber nicht unbedingt davon ablenken.
Mockups generieren mit Firefly In diesem Kapitel haben Sie bereits einige Ideen und Tipps erhalten, wie Sie mit Hilfe von Bild-KIs wie in diesem Beispiel mit Adobe Firefly Produktabbildungen erstellen können. Die-
Im ersten Anlauf habe ich »Produktverpackung« eingegeben und diesen Becher erhalten. Zwar wollte ich keinen Kaffeebecher visualisieren, aber die Aufmachung des Mockups gefällt mir.
Je nach KI-Modell können Sie mit Hilfe von Bildprompts versuchen, Mockups im ähnlichen Stil zu erzeugen. Das ist besonders praktisch,
Praxis: Eigene Mockups erstellen und nutzen | 245
wenn Ihnen ein Mockup gefällt, Sie aber noch Anpassungen machen möchten – oder wenn Sie Mockups an bestehende Darstellungen anpassen wollen.
prompt Mockup für eine junge Kaffee marke, natürliche Farben, einen Stoffbeutel aus ungebleichtem Jute mittig auf einem Holzpodest, ein paar Kaffeebohnen liegen u m das Podest herum, Kaffeepflanze dezent im Hintergrund – Foto, Blende f/2.8 – Negativ prompt Cup, Cap
In Adobe Firefly habe ich nur den Prompt angepasst und damit meine gewünschten Bilder erzeugt. prompt Mockup für eine junge Kaffee marke, natürliche Farben, eine perspektivische Papierverpackung aus ungebleichtem Papier, mittig auf einem Holzpodest, Kaffeebohnen liegen drumherum, Kaffeepflanze dezent im Hintergrund – Foto, Blende f/2.8 – Negativ prompt Cup, Cap
Der gewünschte Jutebeutel auf dem Podest mit Pflanzen im Hintergrund. Ziemlich nah an meinem Ausgangsbild. In dieses Bild wurde mit der Funktion »Modell« in Illustrator ein Design eingefügt.
Für Präsentationszwecke finde ich es in Ordnung, dass die Mockups sich etwas unterscheiden. Es sind ja verschiedene Designansätze im Packaging, und sie passen trotzdem zusammen.
Im selben Stil möchte ich noch einen Stoffbeutel aus Jute als Mockup nutzen. Dieser könnte als Umverpackung des Papierbeutels dienen, um dem Packaging noch mehr Authentizität zu verleihen.
Design einfügen Nun kann ich im Programm meiner Wahl das Design einsetzen, beispielsweise mit Adobe Photoshop oder mit der neuen Funktion »Modell« in Adobe Illustrator, die wir soeben kennengelernt haben. Mit der gezeigten Methode können Sie sich schnell passende Mockups erstellen und Ihre Entwürfe oder Produkte präsentieren. Zeigen Sie Ihr Design auf verschiedenen Materialien und Produkten. Für das Kaffeeunternehmen könnten Sie beispielsweise eine digitale Getränkekarte gestalten und sich dafür ein Café mit Bildschirm generieren uvm.
246 | Praxis: Eigene Mockups erstellen und nutzen
Mockups mit Flair erstellen Eine schnelle Lösung für Mockups bietet Flair. Man kann damit Produktbilder freistellen lassen, ein Composing mit bereitgestellten oder eigenen Elementen vorgeben und via Prompt ein Mockup generieren, das sich dem Produktbild anpasst. Die Anwendung ist selbsterklärend und für den Einstieg bestens geeignet. Gehen Sie über Ihren Browser auf app.flair.ai, und nach der Anmeldung können Sie direkt starten.
Während andere KI-Modelle die Bildprompts eher verfremden, um sie in das Gesamtbild einzufügen, passt Flair den Hintergrund an das Produktbild an und verändert das Produkt selbst nur minimal. Ich nutze einen der vorgeschlagenen Prompts von Flair, um mein Produktfoto zu erstellen. prompt bottle on geometric rocks surrounded by plants, in front of a beige background and shadows
Die Stärke von Flair ist es, ein Produktbild in eine neue Umgebung zu integrieren und damit ein ansprechendes Produktbild zu generieren. Dazu bietet es zahlreiche Möglichkeiten, die einfachste ist jedoch, ein eigenes Produktbild hochzuladen und anschließend mittels eines Prompts eine Umgebung zu kreieren. Das Beispielprodukt habe ich mit Midjourney erstellt: /imagine product photo of a luxurious cosmetic bottle made out of brown translucent glass with a minimalistic and black branding on a white background --no text, font, name
Das Ergebnis ist sehr ansprechend und in wenigen Minuten entstanden. Sogar das Produktbild selbst wird der Lichtsituation und Farbigkeit der Szene angepasst.
Weitere Tools für Mockups Probieren Sie weitere Tools und Anbieter aus, wie den Pacdora Mockup Generator pacdora.com/ mockup-generator oder die Tools von kittl.com, die neben dem Erstellen von Mockups auch noch viele weitere KI-Tools für den kreativen Bereich anbieten. In Midjourney erstelltes Produktbild unserer Parfümflasche
Praxis: Eigene Mockups erstellen und nutzen | 247
DreamStudio by stability.ai Diese Online-Plattform basiert auf dem Open-Source-Bild-KI-Modell Stable Diffusion von Stability AI – einem Unternehmen, das sich auf die Entwicklung von KI-Modellen spezialisiert hat. Im August 2022 wurde die erste Version veröffentlicht. Durch DreamStudio, das Premium-Bildbearbeitungstool von Stability AI, sowie führende Drittan bieter-Apps wie Lensa, Wonder und NightCafe hat die Stable-Diffusion-Suite von Bildgenerierungsmodellen zahlreiche Nutzer und Nutzerinnen erreicht.
Zugang zur KI
Screenshot aus der Webanwendung DreamStudio
DreamStudio ist nach ein paar kostenlosen Testbildern kostenpflichtig und basiert auf einem Credit-Modell. Dafür hat es eine komfortable Benutzeroberfläche, ist schnell und bietet eine gute Übersicht über alle selbstgenerierten Bilder. Man kann aus verschiedenen Stilen wählen, einen Prompt wie auch Negativprompt einfügen, ein Bild als Prompt hochladen und Format wie auch die Anzahl der Bilder wählen, die gleichzeitig generiert werden (um z. B. Credits zu sparen). Wer sich besser auskennt, kann auch noch feinere Einstellungen machen, von denen Sie hier einige kennenlernen werden.
Die Benutzeroberfläche von DreamStudio ermöglicht eine komfortable Anwendung von Stable Diffusion, die für den Einstieg wie auch für fortgeschrittene Nutzung geeignet ist.
248 | Kapitel 5: KI-Programme im Kreativalltag
Nutzung der KI Seit dem Update auf das Modell Stable Diffusion XL ist der Bildgenerator im Feld der generativen KI weit vorgerückt. Doch hat er seine Stärken und Schwächen: Während Illustrationen und besonders Digital Paintings sehr gut funktionieren, sind realistische Fotos noch verbesserungswürdig – besonders wenn es um Menschen und Hände geht. Auch feine Details und besonders Schrift machen Probleme – wie bei fast allen Modellen.
Erste Schritte mit DreamStudio Wie bei vielen anderen KI-Tools beginnt hier alles mit einem Prompt. Das Prompting unterscheidet sich nicht groß von anderen Modellen. Das Format, Anzahl der Bilder sowie fortgeschrittenere Parameter wie Auflösung, Promptstärke, Generierungsschritte, Seed und Modell lassen sich über das User Interface via Regler oder als Texteingabe tätigen. Bei DreamStudio sind Prompt und Negativprompt in getrennten Eingabefeldern, was sehr praktisch ist, wenn man seine Prompts nach und nach anpassen möchte. Hier ein Beispiel eines Prompts mit Negativprompt: prompt photography of a woman who takes a photo with a digital camera, photo realistic, high detail, vintage look, depth of field, focus on camera
Bilder generiert mit Stable Diffusion über DreamStudio
negativprompt Missing fingers, Mutation, Bad anatomy, Deformed, Ugly, Morbid
Der Versuch, ein realistisches Foto einer Frau zu generieren, die mit einer analogen Kamera fotografiert, bringt die KI an ihre Grenzen. Deformierte Finger in fragwürdiger Anzahl sowie kryptische Details im Bereich der Kameralinse und Schrift. Es ist nicht die einzige KI mit Problemen, besonders bei Händen. Selbst Negativprompts gegen Deformierung und zu viele Finger haben keinen oder einen sehr geringen Effekt auf das Ergebnis.
DreamStudio by stability.ai | 249
Screenshots aus der Webanwendung DreamStudio
Vieles lässt sich in DreamStudio über das User Interface einstellen, was die Nutzung etwas komfortabler macht. Auf der linken Seite des Browserfensters finden Sie alles, was Sie zum Generieren Ihrer Bilder benötigen. Ganz oben können Sie einen Stil eingeben, was die Ergebnisse meiner Erfahrung nach besonders im Bereich Fotografie verbessert. Sie können Prompts, Negativprompts und Bildprompts nutzen. Via Regler stellen Sie das Seitenverhältnis und die gewünschte Anzahl Bilder ein.
Diese Ausschnitte aus dem UI zeigen die unterschiedlichen Einstellungsmöglichkeiten.
Haben Sie eines oder mehrere Bilder generiert, können Sie es mit einem Klick auf das jeweilige Bild in der Timeline vergrößert darstellen und finden dort alle Informationen zur Erstellung des Bildes sowie Schaltflächen, um das Bild zu exportieren und weiterzuverarbeiten. Sie erhalten aber auch einige dieser Funktionen, indem Sie mit der Maus über das Bild in Ihrer Timeline fahren. Mit generieren Sie Varianten des Bildes. Editieren Sie das Bild mit – eine neue Eingabemaske ermöglicht das Anpassen einzelner Bereiche via Prompting. kopiert das Bild direkt als Bildprompt, um es dafür zu nutzen. lässt Sie schnell und einfach Ihren Prompt wiederverwenden, andere Einstellungen und Bildprompts werden dabei nicht übernommen. lässt Sie das Bild herunterladen, wobei Sie in einem neuen Dialogfenster gefragt werden, ob Sie das Bild direkt hoch skalieren oder direkt downloaden möchten. Wählen Sie die Upscale-Funktion aus, dann erscheint das Bild erneut in der Timeline und kann anschließend in höherer Auflösung heruntergeladen werden.
250 | Kapitel 5: KI-Programme im Kreativalltag
Erweiterte Techniken im KI-Prompting Unter »Advanced« auf der linken Seite im Browserfenster finden Sie weitere Möglichkeiten, Ihre Prompts anzupassen (siehe rechten Screenshot). Sie können die Pixelmaße eingeben, in denen Sie das Bild benötigen (max. 2.048 Pixel). Die Promptstärke bestimmt, wie stark der Prompt gegenüber anderen Angaben gewichtet werden soll. Das ist besonders interessant, wenn Sie mit Bildprompts und Seeds arbeiten (siehe das folgende Praxisbeispiel »Bildvarianten mit Bildprompts mit Stable Diffusion«).
Screenshots aus der Webanwendung DreamStudio
Seeds finden und nutzen Eine gute Möglichkeit, um Bilderserien oder Varianten zu erstellen, ist das Arbeiten mit Seeds. Mehr über Seeds finden Sie in Kapitel 4 zum Thema Prompting. Klicken Sie auf ein generiertes Bild, und Sie finden den Seed in den Bildinformationen.
Hier habe ich den Seed eines Bildes verwendet (linker Screenshot) und zur Generierung eines neuen Bildes eingesetzt (rechter Screenshot). Alle mit diesem Seed generierten Bilder haben automatisch die identische Seed-ID.
Seed und Negativprompt für Bildvarianten kombinieren Bei dem folgenden Bild der Dame mit der Kamera habe ich keine Variante erstellen können, die eine realistischere »Hand-Kamera-Interaktion« zeigt. Trotzdem mag ich den Stil des Bildes, den Look der Frau und das Licht im Bild. Daher nutze ich den Seed, um mir ein ähnliches Bild zu erstellen. Den Prompt ändere ich wie folgt: prompt photography of a woman, photorealistic, high detail, vintage look, depth of field negativprompt Missing fingers, Mutation, Bad anatomy, Deformed, Ugly, Morbid, Camera
DreamStudio by stability.ai | 251
Bilder generiert mit Stable Diffusion über DreamStudio
Links das Ursprungsbild für den Seed, rechts das Ergebnis des neuen Prompts. Das Bild wirkt nun realistischer ohne die Hände. Der Hintergrund wurde übernommen, und der Bildlook ist nur leicht verändert. Sehr schön auch, wie die Frisur übernommen wurde. Die Kleidung hat sich verändert, aber man könnte meinen, es ist ein und dieselbe Frau.
Neue Seeds mit Bildprompt erzeugen Habe ich mit einem Seed ein neues Bild generiert, das ich als Basis für eine neue Bildreihe verwenden möchte, dann lade ich das Bild herunter, lade es als Bildprompt hoch und stelle die »Image strength« auf 100 % und »Image count« auf 1. Dann klicke ich auf das neu generierte Bild (das exakt dem Ausgangsbild entspricht), kopiere mir den neuen Seed heraus und kann nun mit dem neuen Seed weitere Bilder generieren. Das ist sehr praktisch, wenn man von einem neuen Ausgangspunkt weitermachen möchte oder weitere Varianten mit dem alten Seed keine zufriedenstellenden Ergebnisse bringen. Da aber alle mit einem voreingestellten Seed generierten Bilder den gleichen Ursprungsseed haben, habe ich diesen Trick gefunden, einen neuen Seed zu erhalten.
Prompt Weights DreamStudio bietet eine Gewichtung der einzelnen Promptelemente mit Hilfe von Werten von : -1 (volle negative Stärke) bis : 1 (volle Stärke), die mit Dezimalwerten abgestuft werden können. Mit dem Trennstrich | zeigen Sie an, ab wann die Gewichtung gewertet werden soll, und teilen den Prompt somit in seine Bausteine. Hier ein Beispiel, zunächst der Ausgangsprompt: prompt Chocolate cake with rich, fudgy frosting and perfectly layered cake, garnished with fresh berries and drizzled with melted chocolate, decadent, sweet, high detail, food photography
252 | Kapitel 5: KI-Programme im Kreativalltag
Wie man auf dem linken Bild sieht, ist das Ergebnis wirklich sehenswert. Doch nun fällt mir auf, dass die zerfließende Schokolade etwas zu viel des Guten ist und die Beeren viel Aufmerksamkeit auf sich ziehen. Daher werde ich den Prompt anpassen und diese Elemente neu gewichten:
Bilder generiert mit Stable Diffusion über DreamStudio
prompt Chocolate cake with rich, fudgy frosting and perfectly layered cake : 1 | garnished with fresh berries : -0.5 | drizzled with melted chocolate : -1 | decadent, sweet, high detail, food photography
Links das Bild mit dem Prompt ohne irgendeine Gewichtung, rechts wurden einige Promptbausteine in der Gewichtung verändert. Etwas weniger Fokus auf die Früchte und keine zerlaufende Schokolade mehr – die KI hat meine Wünsche weitestgehend berücksichtigt.
Gewichtung mit Klammern Man kann in Stable Diffusion Einfluss auf die Prompts nehmen, indem man die Reihenfolge der Begriffe nach Priorität von Anfang bis Ende bestimmt oder mit Prompt Weights arbeitet. Zusätzlich kann man mit Klammern den Fokus auf bestimmte Begriffe erhöhen und auf andere Begriffe verringern. Eckige Klammern [beans] verringern den Fokus der KI auf diesen Begriff. Es können auch mehrere Klammern [[[beans]]] eingesetzt werden, je nachdem, wie stark der Effekt sein soll. Normale Klammern (sustainability) können die Aufmerksamkeit auf diesen Begriff erhöhen. Auch diese können mehrfach eingesetzt (((single)) den Effekt verstärken. Auch beim Negativprompt können Sie die Klammern einsetzen. Klammern sorgen dafür, dass der Begriff stärker vermieden wird, und mit eckigen Klammern ist es weniger wichtig, ihn zu vermeiden. Auf den folgenden beiden Bildern sehen Sie die Auswirkung der normalen Klammern auf das Motiv.
DreamStudio by stability.ai | 253
prompt Create a photorealistic image by a trendy, eco-conscious coffee brand, focus on a (((single))) cup of artisanal coffee, modernity and sustainability beans, cozy background, product photography, food photography
prompt Create a photorealistic image by a trendy, eco-conscious coffee brand, focus on a single cup of artisanal coffee, modernity and (((sustainability))) beans, cozy background, product photography, food photography
PRAXIS Bildvarianten mit Bildprompts mit Stable Diffusion Stable Diffusion bietet verschiedene Bordmittel, um eine Reihe an Bildern zu generieren, die einen einheitlichen Look haben. Mir hat das eben beim Thema Seeds generierte Bild der Frau gefallen, und ich möchte verschiedene Emotionen ausprobieren, ohne das komplette Bild zu verändern. Daher lade ich das Bild unter »Image« hoch und stelle die Stärke auf 50 %. Dann stelle ich bei »Advanced« die »Prompt strength« auf 30 (Maximum).
Nun variiere ich meinen Prompt. Der Negativprompt bleibt wie beschrieben. Zusätzlich stelle ich bei »Style« Photographic ein. Ich gebe erneut den Ausgangsprompt ein, denn ich möchte ein Ausgangsbild und dann daraus Variationen erzeugen. Die Bilder werden sich vom Original etwas unterscheiden, daher starte ich mit dem neu generierten Ausgangsbild. prompt photography of a woman, photo realistic, high detail, vintage look, depth of field
Vergleicht man dieses Bild mit dem Ausgangsbild, erkennt man einen leichten Unterschied. Mit den Prompts kann ich noch ein paar Anpassungen machen, aber ich bin zufrieden mit dem Ergebnis und starte nun mit den Varianten.
Einstellungen in der Eingabemaske zum Erstellen von Bildvarianten
Nun kann ich mit den Varianten beginnen, indem ich den Prompt minimal anpasse. Ich möchte verschiedene Emotionen mit ein und derselben Frau darstellen.
256 | Praxis: Bildvarianten mit Bildprompts mit Stable Diffusion
prompt photography of a crying woman, photorealistic, high detail, vintage look, depth of field
Die Frau sieht traurig aus, weint aber nicht – eventuell müsste man den Prompt anpassen, wenn man mehr Emotionen erwartet. Was erstaunlich ist: Die Frau sieht dem ersten Bild sehr ähnlich, und auch Licht, Farben, Kontrast und sogar der Hintergrund sind dem Ausgangsbild mehr als nur ähnlich. Nur die Kleidung hat sich verändert, da diese im Prompt nicht näher definiert wurde.
Tatsächlich haben meine Voreinstellungen ein sehr gutes Ergebnis gebracht. Sollte das Ergebnis zu stark abweichen, ändern Sie eine Sache nach der anderen, zunächst den Prompt, dann die Parameter. Ich probiere weitere Emotionen aus und schaue, ob die KI dem Ausgangsbild treu bleibt. Hier noch ein Beispiel, das sehr gelungen ist:
Schaut man genau, hat sich die Kleidung wieder verändert. Doch das lässt sich nachträglich einfach bearbeiten. Wichtig ist, dass die Frau definitiv erkennbar ist und der Look des Bildes einheitlich bleibt.
Fazit Die KI eignet sich sehr gut zum Erstellen von Varianten. Die Versuche via Seed waren nicht so erfolgreich wie die des Bildprompts in Verbindung mit der Promptstärke. Das eröffnet für die Praxis einige Möglichkeiten, wie das Verändern eigener Fotos oder das Erstellen von Varianten Ihrer KI-generierten Bilder. Auch wenn die Emotionen teilweise noch nicht überzeugen und das Foto mehr nach Digital Painting aussieht, eignen sich die Bilder sehr gut für erste Layouts, Shootingvorlagen, Storyboards oder Moodboards. Wie Sie den Bildern mehr Realismus einhauchen können, erfahren Sie im Praxisbeispiel zum KI-Tool Magnific AI.
prompt photography of a laughing wo man, photorealistic, high detail, vintage look, depth of field
Praxis: Bildvarianten mit Bildprompts mit Stable Diffusion | 257
Meine Tipps und Erfahrungen Abstrakte und künstlerische Darstellungen funktionieren mit Stable Diffusion sehr gut. Trotzdem teste ich meine Bildideen sowie fotografische Darstellungen immer wieder mit dieser KI, und manchmal kommen überraschend kreative Umsetzungen dabei heraus, die ich für meine Ideen und Projekte weiterverwenden kann. Gerade für Food fotografie gefallen mir die Ergebnisse außerordentlich gut – bei Porträts gibt es stärkere Modelle wie Adobe Firefly oder Midjourney. Bei der Einstellung »Photography« als Stil neigt die KI dazu, die Bilder mit einem sehr starken Kontrast zu versehen. Da muss man etwas experimentieren, um zum gewünschten Look zu kommen – z. B. zunächst ohne einen Stil starten und nach und nach ausprobieren, wie sich die Stile auf das Endergebnis auswirken. Bildprompts nimmt die KI dafür sehr gut an, und die Ergebnisse bleiben dem Originalbild treu, was bei anderen Modellen nicht ohne Weiteres klappt. Ändern Sie beim Experimentieren immer nur eine Einstellung – ansonsten erfahren Sie nie, was zum Erfolg oder Misserfolg geführt hat. Nach einer gewissen Zeit oder wenn man viele Versuche hintereinander wagt, streikt die KI ab und zu. Sie generiert die Bilder nicht vollständig oder generiert nur noch unbrauchbare Bilder. Dann hilft nur ein Refresh der Seite und ein neuer Anfang. Merken Sie sich vorher Ihre Einstellungen, wenn Sie an einem gewissen Punkt weitermachen möchten. Stable Diffusion braucht manchmal Negativprompts, um verformte Gesichter und weitere seltsame Darstellungen von Menschen zu vermeiden (siehe Tabelle Negativprompts in Kapitel 4). Der Unterschied zwischen der negativen Gewichtung im Textprompt und dem Negativprompt ist, dass Sie bei Ersterem mehr Kontrolle haben. Vielleicht möchten Sie etwas nicht ganz ausschließen, aber nicht so dominant im Bild haben. Am Ende braucht es ein paar Versuche, die richtige Kombination zu finden oder den Prompt anzupassen, bis Sie zufrieden sind. Wenn Sie andere Anbieter (z. B. getimg.ai) nutzen, die ebenfalls auf dem Modell Stable Diffusion basieren, dann können die Einstellmöglichkeiten und das Prompten etwas variieren. Kostenlose Anbieter haben meist reduzierte Einstellmöglichkeiten, geringere Bildqualität und sind langsamer in der Bildgenerierung. Zum Üben sind diese trotzdem gut geeignet, doch ein professioneller Einsatz führt früher oder später zu einem der Bezahlmodelle wie dem von DreamStudio. Links zur Webseite dreamstudio.ai stability.ai beta.dreamstudio.ai/prompt-guide
258 | Kapitel 5: KI-Programme im Kreativalltag
PRAXIS Vektorisieren von Pixelbildern mit Vectorizer.AI Illustrator kann zwar nun Vektorgrafiken erzeugen, aber das Vektorisieren von Pixelbildern überlasse ich dem kostenlosen Vectorizer.AI. Er ist sehr genau und bietet einige Einstellungsmöglichkeiten. Zunächst brauchen wir ein Pixelbild, das sich für das Vektorisieren eignet. Generieren wir eines in Midjourney mit folgendem Prompt:
man nun auf eine Seite voller Einstellmöglichkeiten. Scrollen Sie auf der Seite nach unten, erhalten Sie detaillierte Informationen, was die einzelnen Formate und Einstellungen bewirken. Ich wähle das Dateiformat »EPS«, als Zeichenart »Formen füllen« und folgende weitere Einstellungen: »Formen übereinander stapeln«, »Superfein«, sowie alle Häkchen bei »Zulässige Kurventypen« und »Lückenfüllung«.
/imagine elegant, minimalistic and fine outline vector sun and moon icons, gold and black on white background
Hier der Vergleich in 100 %-Skalierung zwischen Pixel und Vektor.
Das ist das Ergebnis, das ich gerne vektorisieren möchte. Es gibt einige Details und feine Linien.
Öffnen Sie die Seite vectorizer.ai, und ziehen Sie das Bild z. B. per Drag & Drop in das Browserfenster. Sie können die Seite auf Deutsch umstellen, um die Einstellungen später besser zu verstehen. Das Bild wird verarbeitet, und es wird eine Vorher-Nachher-Ansicht generiert. Mit einem Klick auf »Herunterladen« kommt
Weitere Tipps & Hinweise Das Ergebnis ist nur so gut wie die Vorlage. Verläufe werden in Flächen aufgeteilt. Experimentieren Sie mit den Einstellungen, um für sich die ideale Kombination zu finden. Für Vorlagen zur Vektorisierung eignen sich außerdem folgende Promptbegriffe: Scalable vectorgraphic, vector, icon, logo, illustration, sticker, simple, fine, outline, drawing book, flat, minimalistic
Praxis: Vektorisieren von Pixelbildern mit Vectorizer.AI | 259
PRAXIS Mit Magnific AI Bilder interpolieren und verbessern Magnific AI ist ein KI-Tool, das zum »Upscalen«, also Interpolieren sowie zum Verbessern von Bildern dient. Das Modell hebt sich von allen anderen Upscaling-Methoden ab, indem es nicht nur Einstellmöglichkeiten zur Bildart, dem Detailgrad und Co. bietet, sondern man den Ursprungsprompt eingeben kann, um das Ergebnis zu verbessern. Zusätzlich kann der Prompt weiteren Einfluss auf das Ergebnis nehmen, indem man mit Parametern arbeitet, wie Sie gleich in den Beispielen sehen werden. Input Image Um überhaupt mit dem Tool arbeiten zu können, brauchen Sie ein Bild, das Sie dort hochladen können. Hier spielt es keine Rolle, ob es KI-Bilder sind oder eigene Fotos, Grafiken uvm. Bitte achten Sie auf die Bildrechte, bevor Sie Bilder von Dritten hochladen und verarbeiten lassen. Das Modell akzeptiert JPG und PNG (Transparenzen werden allerdings im Prozess zu einer weißen Fläche umgewandelt). Bilder mit Texten können mit diesem Modell leider derzeit nicht skaliert werden. Ich habe es mit den Screenshots für dieses Buch versucht, und die Texte wurden leider stark verfremdet. Scale factor Aktuell ist der Faktor zur Skalierung der Bilder auf 2–16× bzw. maximal 10k begrenzt. Wenn das nicht reicht, kann man das Bild mehrfach durchlaufen lassen und erhält so eine höhere Auflösung. Übersteigt die Skalierung die 10kAuflösung (10.000 × 10.000 Pixel), lässt das Modell keine Interpolation des Bildes zu. Fangen Sie lieber klein an und lassen den Prozess mehrfach durchlaufen, um mehr Kontrolle zu erhalten.
Einige Bild-KIs bringen schon recht hohe Auflösungen mit sich, doch fehlt es ihnen vielleicht an Realismus und feinen Details. Kommen Sie an das Skalierungslimit, dann können Sie die KIBilder zuerst oder zwischendurch kleinerrechnen, um den Prozess mehrfach durchlaufen zu können. Optimized for Hier können Sie das Ergebnis unterstützen, indem Sie das passende Modell wie »Portrait« oder »Art & Illustrations« auswählen, das Ihrem Ausgangsbild bzw. gewünschten Ergebnis entspricht. Leider gibt es noch nicht so viele Informationen zu den einzelnen Einstellungen, daher muss man ein bisschen ausprobieren, wie sich die verschiedenen Einstellungen auf das End ergebnis auswirken.
Mit der Angabe des Bildstils können Sie das Ergebnis beeinflussen. So habe ich Illustrationen fotorealistischer gestalten können und Fotos mehr in Richtung Grafik skalieren lassen.
260 | Praxis: Mit Magnific AI Bilder interpolieren und verbessern
Prompt Nutzen Sie den Originalprompt, oder beschreiben Sie Ihre Wünsche für den Skalierungsprozess. Sie können auch mit Gewichtungen arbeiten, um bestimmte Merkmale stärker zu beeinflussen. Hierfür habe ich das Beispiel aus dem Praxisbeispiel »Bildvarianten mit Bildprompts mit Stable Diffusion« genutzt und wollte der Dame knallrote Lippen verpassen.
J
J
J
prompt photography of a laughing woman with bright red lipstick:1.4, photorealistic, high detail, vintage look, depth of field
J
Das Bild ist sehr viel realistischer geworden, aber die Lippen bleiben weitestgehend so, wie sie waren. Trotz mehrerer Versuche und verschiedener Einstellungen hat das hier nicht geklappt.
Der Prozess klappt jedoch auch wunderbar, wenn man keinen Prompt eingibt. Sie haben außerdem noch weitere Möglichkeiten, das Ergebnis zu beeinflussen. Die Regler Creativity, HDR, Resemblance und Fractality können in die positive wie auch negative Richtung bewegt werden:
Creativity: Hiermit bestimmen Sie den Grad der »Halluzinierung« weiterer Details im Bild, wie die Entwickler von Magnific es beschreiben. Je höher der Wert, desto weiter entfernen Sie sich vom Originalbild. HDR: Mit diesem Regler beeinflussen Sie den Grad der Details im hochskalierten Bild. Gerade bei Gesichtern führt dies zu mehr Poren, Falten und realistischen Haaren. Resemblance: Damit können Sie entscheiden, wie stark die skalierte Version sich an dem Originalbild orientieren soll. Bei Fotos von realen Personen ist das eine wichtige Einstellung. Bei KI-Bildern kann das Abweichen vom Original eine Verbesserung des Bildes bedeuten. Fractality: Steuern Sie die Stärke des Prompts. Mit niedriger Fraktalität gibt es weniger Details und normalerweise weniger Fehler, während höhere Fraktalität in kleineren Bereichen des Bildes verstärkte Details liefert.
Engine Sie können zudem zwischen verschiedenen Engines wählen: Illusio (für Illustrationen und Landschaften), Sharpy (für Fotos oder fotorealistischere Bilder) oder Sparkle (eine Mischung aus den beiden anderen Engines, aber ebenfalls gut für fotorealistische Ergebnisse). Außerdem empfehlen die Entwickler, bei mehreren Durchgängen in den Engines zu variieren, um an das ideale Ergebnis heranzukommen.
Erstes Fazit Starten Sie mit den Standardeinstellungen, und machen Sie dann erst Änderungen in den Einstellungen, um ein besseres Gefühl für deren Wirkung zu erhalten. Es folgen nun weitere Beispiele.
Praxis: Mit Magnific AI Bilder interpolieren und verbessern | 261
Beispiel für KI-generierte Illustrationen
Das Original wurde mit Midjourney in der Auflösung 1.024 × 1.024 Pixel generiert.
Ergebnis aus einem Durchlauf 2× mit Magnific auf »Art & Illustrations« optimiert, Resemblance auf 4 und mit einer Auflösung von nun 2.048 × 2.048 Pixel
Beispiel für KI-generierte fotorealistische Bilder
Das Original wurde mit DALL-E in der Auflösung 1.792 × 1.024 Pixel generiert.
Ergebnis aus zwei Durchläufen je 2× mit Magnific auf »Standard« optimiert, Resemblance auf 6 und mit einer Auflösung von nun 3.272 × 4.096 Pixel
262 | Praxis: Mit Magnific AI Bilder interpolieren und verbessern
Runway Runway ist eines der ersten generativen KI-Tools, basierend auf Stable Diffusion; mit ihm habe ich bereits 2019 experimentiert. Seitdem hat sich hier einiges getan.
Zugang zur KI Die meisten KI-Tools von Runway sind über die Webseite im Browser nutzbar. Es gibt auch eine App, die praktisch für die Bild- und Videogenerierung unterwegs ist. Man kann sich zunächst kostenlos registrieren und erhält einige freie Server-Sekunden zum Testen mit eingeschränkten Funktionen. Anschließend kann man mit Monats- und Jahresabos mit der App viele neue Möglichkeiten und Ideen ausprobieren. Die gesamte Plattform ist auf Englisch, auch die Promptsprache.
Nutzung der KI Folgende Funktionen bietet Runway: J J J J J J J J J
Video zu Video Text/Image zu Video Frame Interpolation (Übergänge zwischen Einzelbildern) Videobearbeitung (z. B. Hintergrund entfernen, Personen und Gegenstände entfernen, Color Grading, Slow Motion, Face-Blur, Motion Tracking uvm.) Generate Audio (Audio bereinigen, Stille entfernen, Transkripte erstellen, Subtitles) Generate Images (Text to Image, Image to Image, Infinite Image, Image Variation) Bildbearbeitung (Bilder erweitern, interpolieren, Bildteile entfernen und ersetzen, Hintergrund ersetzen, Farben bearbeiten) 3D (Text zu 3D-Textur, 3D Capture) AI-Training (eigene Bildmodelle trainieren)
Die Relevanz von Videos In diesem Buch möchte ich besonders auf das Generieren von Videos eingehen, da dies ein großes Alleinstellungsmerkmal von Runway ist und in Zukunft viele neue Wege in der Erstellung und Bearbeitung von Bewegtbildern eröffnen wird. Bewegtbilder bzw. Videos sind in unserer digitalen Welt kaum wegzudenken. Bewegte Bilder ziehen viel Aufmerksamkeit auf sich, und ganze Social-Media-Plattformen bauen alleine auf dem Medium Video auf. Daher ist es gerade im Kreativbereich so interessant, Videos zu generieren, denn das Produzieren von (gutem) VideoContent ist eine zeitliche wie auch finanzielle Herausforderung.
Runway | 263
Runway wird die Zukunft im Bereich Videogenerierung und Animation sein. Die Bildgenerierung führte bei mir bisher nicht zu vielen nutzbaren Ergebnissen, auch nicht mit selbst trainierten Modellen. Daher zeige ich Ihnen hier ein paar Ideen, wie Sie Runway kreativ für Ihre Projekte nutzen können. Die Benutzeroberfläche von Runway ermöglicht eine komfortable Nutzung von Stable Diffusion, die für Anfänger wie auch Fortgeschrittene geeignet ist. Sie können die jeweiligen Funktionen im Browser auf der linken Seite auswählen. Unter »Assets« finden Sie alle bisher generierten und hochgeladenen Bilder und Videos. Sie können diese in Ordnern organisieren und von den verschiedenen Funktionen der KI darauf zugreifen. So können Sie beispielsweise ein Video generieren und anschließend bearbeiten, ohne es vorher herunterladen zu müssen.
Erste Schritte mit Runway Gehen Sie über die Startseite auf die gewünschte Funktion, oder wählen Sie diese auf der linken Seite aus. Im Bereich »Videos – Generate Videos« haben Sie die Wahl zwischen »Video to Video«, »Text/Image to Video« und »Frame Interpolation«. Die letzteren beiden werden wir uns im Zusammenhang mit unseren KI-generierten Bildern näher anschauen. Frame Interpolation Um diese Funktion zu demonstrieren, habe ich ein Bild in Midjourney generiert und mehrfach hintereinander mit »Zoom Out 1.5׫ aus der Szene herausgezoomt, bis ich sieben Bilder hatte. Diese habe ich mit Frame Interpolation zu einem Video hinzugefügt. Die KI erstellt »smoothe«, also glatte Übergänge zwischen den Bildern.
Das Ergebnis können Sie sehen, wenn Sie den QR-Code scannen.
264 | Kapitel 5: KI-Programme im Kreativalltag
Text zu Video Sie können mit dem Model Gen-2 Video mit Bild- und Textprompts jeweils viersekündige Videos generieren. Um längere Videos zu erstellen, können Sie die generierten Videos mit »Extend 4s« jeweils um weitere vier Sekunden verlängern. Die Eingabemaske bietet neben dem Textprompt weitere Einstellmöglichkeiten.
So sehen die Einstellungen aus, wenn man Videos mit Runway generieren möchte.
Unter finden Sie den Seed und weitere Einstellmöglichkeiten, wie das direkte Interpolieren der Frames oder das Upscaling des Videos sowie das Entfernen des Wasserzeichens in den Videos. Mit können Sie die Intensität der Bewegung im Video mit Werten zwischen 1 und 10 steuern.
Einige dieser Funktionen sind nur in der Bezahlversion verfügbar. Je höher der Wert bei »General Motion«, desto mehr Bewegung.
Mit haben Sie Einfluss auf die Kamerabewegungen. Außerdem können Sie Stile wählen, im folgenden Beispiel habe ich »Advertising« ausgewählt. Beschreiben Sie in Ihrem Textprompt die Szene so gut wie möglich, aber ohne allzu viele Details. Es hilft, filmische Fachbegriffe wie »Cinematic« zu nutzen und die Bewegung, die Sie in dem Video darstellen wollen, so gut es geht zu beschreiben.
Runway | 265
Beginnen wir mit einem Werbespot für Kaffeebohnen und folgendem Textprompt: prompt cinematic shot of fresh roasted coffee beans flying around, close up on single beans, beige gradient background
Leider lösen sich die Bohnen gegen Ende des Videos auf und wirken unförmig. Die ersten Sekunden sind jedoch nutzbar. Scannen Sie den QR-Code, um sich das Ergebnis anzuschauen.
Bild und Text zu Video Eine weitere Möglichkeit, Video zu produzieren, ist das Verwenden eine Bildprompts oder eines kombinierten Bild- und Textprompts. Laden Sie ein beliebiges Bild hoch, und machen Sie Ihre Einstellungen. Um weiteren Einfluss auf das Ergebnis zu haben, können Sie zusätzlich einen Textprompt einfügen. Neben den Qualitätseinstellungen können Sie Kamerabewegungen steuern, aber keinen Stil hinzufügen, da sich dieser am Bild orientiert. Für ein Beispiel habe ich ein KI-generiertes Bild aus diesem Kapitel hochgeladen und mit folgendem Prompt ergänzt: prompt cinematic shot of a woman closing her eyes while floating in the water, camera moves up to the surface of a pool
Das Format des Videos orientiert sich ebenfalls am hochgeladenen Bild. Es macht also Sinn, das Bild vorher in das gewünschte Videoformat zu bringen.
266 | Kapitel 5: KI-Programme im Kreativalltag
Scannen Sie den QR-Code, um sich das Ergebnis anzuschauen.
Erweiterte Techniken Runway bietet eine weitere Möglichkeit, Einfluss auf den Generierungsprozess zu nehmen: den Motion Brush, der sich aktuell noch in der Betaphase befindet. Sie können damit einen Bereich in einem Bild maskieren, auf den sich die Videoanimation beschränken soll. Zusätzlich können Sie Einstellungen zur Bewegung machen.
Hier sehen Sie die Einstellungen und den Textprompt, den ich in Kombination mit Motion Brush genutzt habe. Scannen Sie den QR-Code, um sich das Ergebnis anzuschauen.
Runway | 267
Ein weiteres Beispiel mit dem Motion Brush ganz ohne Prompt. Scannen Sie den QR-Code, um sich das Ergebnis anzuschauen.
Meine Tipps und Erfahrungen Der Generierungsprozess benötigt etwas Ausdauer Ihrerseits – die Ergebnisse sind oft weniger »filmreif«, wirken verzerrt oder es findet zu viel oder zu wenig Bewegung statt. Die Einstellmöglichkeiten und der Prompt helfen, sind aber keine Garantie für einen perfekten Film. Wenn Sie die Bezahlvariante haben, dann vergessen Sie nicht, das Wasserzeichen auszublenden. Nachträglich lässt es sich nur mit Mühe entfernen.
Anwendungsideen für generierte Videos Sie können die Videos vielseitig nutzen. Zurzeit bedürfen die meisten Videos einiger Nachbearbeitung. Aber im Kreativprozess können Sie die Videos nutzen, um detailliertere Storyboards für Werbespots oder andere Videoprojekte zu erstellen. Probieren Sie doch einmal aus, Ihre Mockups für Präsentationszwecke zu animieren und ein Video daraus zu generieren – für den Wow-Effekt bei Ihrer Zielgruppe. Ergänzen Sie aktuelle Videoprojekte mit KI-generiertem B-Roll-Content. Meistens reichen wenige Sekunden aus, um Ihr Video zu bereichern.
Link zur Webseite app.runwayml.com help.runwayml.com/hc/en-us/articles/17329337959699-Gen-2-Prompt-Tips
268 | Kapitel 5: KI-Programme im Kreativalltag
PRAXIS Weitere KI-Video-Tools Einige spannende Entwicklungen im Bereich Videoerstellung möchte ich Ihnen zum Abschluss des Kapitels noch vorstellen. HeyGen Dieses KI-Tool erzeugt Videos in beeindruckender Qualität. Sie können Avatare für sich sprechen lassen, und das sogar in mehreren Sprachen. Erstellen Sie sie selbst mit Hilfe von Bildvorlagen, oder nutzen Sie vorhandene. Wäh len Sie aus vielen verschiedenen Stimmen, die beinahe lebensecht klingen, oder übersetzen Sie Ihre selbst erstellten Videos in andere Sprachen – ohne diese lernen zu müssen. Unter heygen.com finden Sie viele Möglichkeiten und Ideen, Videos zu erstellen und zu bearbeiten.
VEED.IO Über ChatGPT bin ich auf den Text-zu-VideoGenerator von VEED.IO aufmerksam geworden. Sie können sich komplett fertige Videos mit einem Textprompt erstellen lassen. Die KI fügt Text, Musik und Szenen aus Stockmaterialien zusammen. Sie können das Ergebnis anschließend in einer Art Editor direkt auf der Webseite (veed.io) bearbeiten. Die Seite bietet weitere Optionen an, wie das Klonen der eigenen Stimme und das Übersetzen von Videos in mehrere Sprachen. Sie können außerdem mit der Captions App schnell und einfach Untertitel Ihrer Videos erstellen lassen. Topaz Video AI TOPAZ LABS bietet neben seiner Photo AI zum Interpolieren von Bildern auch eine Video AI. Beispiele und Informationen finden Sie unter: topazlabs.com Diese Nachbearbeitung könnte den entscheidenden Unterschied machen, ob Sie die mit Runway generierten Videos in Ihren Projekten nutzen können. Ausblick Einige der in diesem Buch genannten Bildmodelle werden früher oder später ebenfalls in die Generierung von Videos einsteigen. Es wird spannend, wie sich diese Technologie noch auf unsere Arbeit im Kreativbereich auswirken wird.
Für eine Präsentation habe ich einmal ein KI-Video in Schwyzerdütsch die Verabschiedung sprechen lassen.
Praxis: Weitere KI-Video-Tools | 269
/imagine a scene from the film the godfather directed by Francis Ford Coppola, showing a scene from the future of a graphic designer working with futuristic tools and artificial intelligence, photorealistic, high detail --ar 3:2
KAPITEL 6
Recht und Ethik
KAPITEL 6
Recht und Ethik All die Möglichkeiten, die KI uns Menschen bietet, sind nicht von der Hand zu weisen. Wie Sie bereits erfahren haben, wurde KI mit Hilfe von unvorstellbar großen Datenmengen trainiert. Und diese Daten – Bilder, Filme, Kunst, Texte usw. – wurden von Menschen geschaffen. Die Modelle basieren auf einer Programmierung und auf dem Training durch Unternehmen und Menschen, die für sie arbeiten. KI-generierte Inhalte fluten das Internet, und es gibt bereits Bücher, Kunstwerke und Co., die mit Hilfe von KI geschaffen wurden. Wer diese Technologie professionell nutzen möchte, sollte sich daher besonders mit den Themen Recht und Ethik auseinandersetzen. Auch wenn der Bereich bisher häufig noch eine »Grauzone« ist, gibt es einige Informationen und Richtlinien zum Thema KI in Europa und Deutschland. Dieses Kapitel soll Ihnen einen Überblick über diese Themen verschaffen und den Weg zu weiteren Informationen erleichtern. Im Zweifel gilt es, eine individuelle Rechtsberatung hinzuzuziehen, bevor Sie irgendwelche Risiken eingehen.
Rechtliches in Verbindung mit KI Bildgenerierende KI-Modelle, aber auch LLMs haben in den Medien Schlagzeilen gemacht, in denen es um die Herkunft der Trainingsdaten geht. Bei jedem Vortrag und jedem Workshop über KI werden rechtliche Fragen gestellt – denn hier herrscht viel Unsicherheit, aber auch Empörung darüber, wie KI-Entwickler mit urheberrechtlichen Daten umgehen. Es gab sogar einige Gerichtsverfahren und öffentliche Statements von Verbänden und Institutionen zu diesem Thema. Der Wunsch nach Regulierung wird immer lauter, und da spielt natürlich auch die Existenzangst von Künstlerinnen und Künstlern und anderen Kreativen mit hinein. Schauen wir uns die wichtigsten Themen an. Ich habe für Sie zusammengestellt, was bereits an Wissen zur Verfügung steht und wo Sie weitere Informationen erhalten. Bitte beachten Sie, dass es zu diesem Zeitpunkt (Anfang 2024) noch wenige Präzedenzfälle gibt und letztlich nur ein Gericht in einer Streitfrage entscheiden kann. Auch können hier keine rechtlich verbindlichen Aussagen getroffen, sondern nur vorhandene aktuelle Informationen gesammelt werden.
272 | Kapitel 6: Recht und Ethik
Urheberrecht Die Probleme mit dem Urheberrecht gehören zu den häufigsten Fragen, wenn ich mit anderen über das Thema KI spreche. Viele verwechseln allerdings Urheberrecht mit dem Nutzungsrecht – das wir später in diesem Kapitel behandeln. Das Urheberrecht ist zunächst da, um die Urheberinnen und Urheber von kreativen Werken zu schützen. Urheberrechtlich geschützte Werke müssen nicht gesondert in ein Register eingetragen werden. Weitere Bedingungen für das deutsche Urheberrecht und was der Unterschied zum amerikanischen Copyright ist, erfahren Sie im folgenden Abschnitt. Deutsches Urheberrecht vs. US-amerikanisches Copyright Die meisten KI-Modelle stammen nicht aus Europa, sondern aus den USA. Dort gilt das sogenannte Copyright, das anders als beim deutschen Urheberrecht übertragbar ist: Somit können auch Unternehmen Inhaber des Copyrights sein. Mit anderen Worten: Nicht der Urheber (beispielsweise ein Künstler) selbst besitzt das Urheberrecht, sondern der wirtschaftliche Rechteverwerter (wie Verlage). Das Copyright beinhaltet das Vervielfältigungsrecht, das Bearbeitungsrecht und das Recht zur öffentlichen Aufführung. Die Schutzdauer eines Werks hängt von verschiedenen Faktoren ab. Das in Deutschland geltende Urheberrecht ist hingegen nicht übertragbar und schützt den Urheber und die Urheberin eines künstlerischen Werkes – die Schutzdauer läuft bis 70 Jahre nach dem Tod.
Auszug aus dem Urheberrechtsgesetz »Zu den geschützten Werken der Literatur, Wissenschaft und Kunst gehören insbesondere: […] Werke im Sinne dieses Gesetzes sind nur persönliche geistige Schöpfungen.« Quelle: gesetze-im-internet.de/urhg/__2.html
Der größte Unterschied zwischen den beiden Rechtsformen ist die Intention dahinter: Während in Deutschland den Urhebern ein besonderes Maß an Anerkennung ihrer Schöpfung zugeschrieben werden soll, zielt das Copyright mehr auf die ökonomischen Aspekte eines Werks und den Nutzen für Copyright-Eigentümer ab. Was beide aber gemeinsam haben, ist, dass sie sich auf von Menschen erstellte Werke beziehen, die einen gewissen Grad an Originalität und Kreativität (der nicht näher definiert wird) besitzen.
Auszug aus dem Copyright-Gesetz »Works are original when they are independently created by a human author and have a minimal degree of creativity. […] Everyone is a copyright owner.« Quelle: copyright.gov/what-is-copyright
Rechtliches in Verbindung mit KI | 273
Bei der Frage, welches Recht jeweils angewandt wird, gilt das sogenannte Schutzlandprinzip. Somit gilt das Landesrecht des jeweiligen Nutzers: deutscher Blog – deutsches Recht. Es ist also nicht relevant, woher der Anbieter des KI-Modells kommt, dessen generierte Inhalte ich genutzt habe. Ob etwas dem deutschen Urheberrecht unterliegt, hängt von gewissen Regelungen ab, die leider nicht messbar oder definierbar sind. Daher muss im Streitfall ein Gericht individuell entscheiden. Nicht alles, was wir gestalten und veröffentlichen, unterliegt automatisch dem Urheberrecht oder dem Copyright. Während Fotos ab dem Zeitpunkt des »Auslösens« automatisch geschützt sind, kann ein Logodesign dies nicht sein und KI-generierte Bilder unterliegen nicht der Definition eines Fotos. Urheberrecht und KI-generierte Inhalte KI ist also kein Urheber der generierten Inhalte, da es nach geltendem Recht keine natürliche Person bzw. Rechtspersönlichkeit (und kein Mensch) ist. Auch das Unternehmen, das KI-Modelle betreibt, hat keine urheberrechtlichen Ansprüche auf die KIgenerierten Werke. Beim Programmcode bzw. der Software dieser KI-Entwicklungen gelten wiederum Urheberrechte (ausgenommen Open-Source). Es gibt derzeit keine eindeutige Antwort darauf, wer Urheber eines von einer KI erstellten Textes oder Bildes ist. Einige argumentieren, dass der Mensch, der die KI programmiert hat, der Urheber sein sollte, während andere argumentieren, dass die KI selbst als Urheber angesehen werden sollte. Die Frage, ob es als Nutzer ausreicht, einen Prompt einzugeben und damit ein urheberrechtliches Werk zu erzeugen, bleibt zunächst offen. Es ist abzuwarten, wie die Gesetzgebung in Zukunft damit umgehen wird.
Brauchen wir Urheberrechte auf KI-Inhalte? Gerne wird das Fehlen eines eindeutigen Urheberrechts als Gegenargument verwendet, KI professionell einzusetzen. Schauen wir uns die Realität an, dann nutzen wir im Designalltag verschiedenste Ressourcen anderer, indem wir diese lizenzieren (Stockgrafiken und -fotos) oder geliefert bekommen (Texte, Bilder uvm.). Die Frage nach dem Urheberrecht ist spätestens dann wichtig, wenn es zum Streitfall kommt oder das erzeugte Werk alleine genutzt wird, ohne es in ein Gesamtwerk einzufügen. Gerade im angewandten Design greift das Recht des Urhebers auf die wenigsten unserer Werke – daher gibt es so etwas wie Geschmacksmuster. Auch wenn wir viel Arbeit in etwas gesteckt haben, ist es nicht automatisch geschützt.
Der Umkehrschluss ist, dass jede Person meine und Ihre KI-Bilder ebenfalls nutzen könnte. Viele KI-Anbieter bieten nur mit gewissen Zahlungsmodellen Privatsphäre und keine öffentliche Verbreitung – oder Nutzung der KI-generierten Inhalte zu Trainingszwecken – an. Das bedeutet nicht, dass alles von Ihnen nun direkt öffentlich im
274 | Kapitel 6: Recht und Ethik
Internet zu sehen ist, es ist aber auch nicht auszuschließen. Ein wichtiger Punkt, den Sie sich unbedingt zu Herzen nehmen sollten, wenn Sie z. B. an sensiblen Projekten arbeiten, von denen vorher nichts veröffentlicht werden darf, oder Sie mit Werken Dritter arbeiten.
Bild generiert mit Midjourney
Trainingsdaten und Urheberrecht – die Haftungsfrage Einer der größten Kritikpunkte um generative KI ist die Frage nach der Herkunft von Trainingsdaten. Und die Frage nach der Urheberschaft wirft zusätzliche Überlegungen auf, z. B. wer am Ende dafür haftet, sollten die Rechte Dritter durch KI-generierte Inhalte verletzt werden. Wie Sie bereits wissen, benötigt KI eine solche Datenmenge für das Training, dass dieser »Hunger« nur durch das Internet gestillt werden kann – ein Internet voller Informationen, Bilder und anderer durch Menschen gemachter Werke und Inhalte, die zum Teil urheberrechtlich geschützt sind. Und das führt zu wichtigen Diskussionen und auch zu Gerichtsverfahren.
Es ist wichtig, dass Menschen für ihre Rechte kämpfen. Künstler und Künstlerinnen gestalten unsere Gesellschaft und Kultur mit und sollten dafür vergütet werden, wenn ihre Werke weiterverwertet werden. Doch hinsichtlich der Masse an Daten, die KI benötigt, und der Technologie, wie KI Bilder aus diesen Trainingsdaten generiert, ist es schwer festzustellen, inwiefern einzelne Arbeiten zu den Ergebnissen der KI beitragen.
§ 44a UrhG Text und Datamining Dürfen bei der KI-Entwicklung einfach Daten aus dem Internet für KI-Training genutzt werden? Hier könnte das Urheberrechtsgesetz zum Datamining eine wichtige Rolle spielen, wenn es um zukünftige Rechtsentscheidungen geht. »Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. […] Nutzungen […] sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.« Quelle: buzer.de/s1.htm?g=UrhG&a=44a-63
Rechtliches in Verbindung mit KI | 275
Wenn wir die heutigen KI-Systeme nutzen, scheinen diese alles zu tun, was wir von ihnen verlangen (außer es verstößt gegen die Regeln, die ihnen einprogrammiert wurden). Ohne Rückfrage, ohne zu zögern. Und wir haben keine Kontrolle darüber, ob die KI hier Plagiate schafft oder Rechte Dritter verletzt. Ich kann mir bekannte Figuren aus der Filmbranche generieren lassen oder den Stil von Regisseuren, wie auf den jeweiligen Kapiteleinstiegsseiten dieses Buchs. Ersteres verletzt allerdings Markenrechte, Zweiteres, der Stil, lässt sich so ohne Weiteres nicht rechtlich sichern. Ein Dilemma, das gerade ungelöst im Raum schwebt.
Exkurs Markenrecht Auch wenn KI-generierte Bilder nicht urheberrechtlich geschützt sind, können Sie Rechte Dritter verletzen. »Als Marke können alle Zeichen, […] einschließlich Personennamen, Abbildungen, […] dreidimensionale Gestaltungen einschließlich der Form einer Ware oder ihrer Verpackung sowie sonstige Aufmachungen einschließlich Farben und Farbzusammenstellungen geschützt werden, die geeignet sind, Waren oder Dienstleistungen eines Unternehmens von denjenigen anderer Unternehmen zu unterscheiden.« Mit KI lassen sich markenrechtlich geschützte Inhalte schnell und in sehr guter Qualität in generierte Bilder integrieren. Eine Kampagne mit Yoda aus Star Wars als Testimonial? Klingt verlockend und ist schnell gemacht – verletzt aber definitiv Markenrechte. Bleiben Sie also bei eigenen Ideen, holen Sie die Rechte der Markeninhaber ein, und lassen Sie im Zweifel die Designs rechtlich prüfen. Quelle: gesetze-im-internet.de/markeng
Im Jahr 2023 gab es bereits einige Gerichtsverfahren zwischen Künstler*innen und KIUnternehmen, die auf eine Vergütung von Urhebern abzielen sollten, deren Werke für KI-Training genutzt wurden. Manchen geht es um die Vergütung für die eigenen Werke, anderen für ein allgemeines Vergütungsrecht für KI-Trainingsdaten. Geklagt wurde unter anderem gegen Stability AI, Midjourney und DeviantArt – doch Teile der Klagen wurden bereits abgewiesen. Da sich dies jedoch auf bestimmte Werke bestimmter Personen bezieht, kann man aus diesem Ergebnis noch keine Schlüsse für die Zukunft ziehen. Getty Images, eine der weltweit größten Stockbildagenturen, hat angekündigt, Klage gegen Stability AI einzureichen, da auf generierten Bildern das Wasserzeichen der Bildagentur erschienen sein soll und damit der Verdacht im Raum steht, dass die Bilddatenbank ohne Erlaubnis oder Vergütung zu Trainingszwecken genutzt wurde. Zukünftig wird Getty Images einen eigenen KI-Generator anbieten, den sie als »kommerziell unbedenklich nutzbar« bewerben.
276 | Kapitel 6: Recht und Ethik
Adobe hat mit dem eigenen Modell Firefly ein multimodales KI-Modell geschaffen, das sie ebenfalls als kommerziell unbedenklich bewerben. Als Basis für die Trainingsdaten dient die eigene Adobe-Stock-Bilddatenbank und ein Vergütungsmodell für die Anbieter und Anbieterinnen, deren Werke für das Training genutzt wurden – derzeit ohne Opt-out. Für Unternehmenskunden soll Adobe sogar eine Art Rechtsschutz bei Urheberrechtsklagen bieten.
Restrisiko und Lösungsvorschläge Die Haftungsfrage in der Nutzung von KI-Modellen ist wie gesehen nicht eindeutig geklärt, zumindest was die Urheberrechte Dritter angeht. Leider bleibt ein gewisses Restrisiko, ob mit dem generierten Bild Urheberrechte oder andere Rechte Dritter verletzt werden. Ein paar Ideen, wie Sie damit umgehen können, präsentiere ich hier: J J J J J J
Achten Sie darauf, dass Sie keine Markenrechte verletzen, und gehen Sie verantwortungsvoll mit diesem mächtigen Werkzeug um. Nutzen Sie die Google-Bildersuche, um zu schauen, ob Ihre KI-generierten Bilder urheberrechtlich geschützten Werken ähneln. Lassen Sie Texte durch spezialisierte Programme auf Plagiate prüfen. Nutzen Sie KI-Modelle, die mit urheberrechtlich unbedenklichem Material trainiert wurden. Bearbeiten Sie die generierten Inhalte, sodass Sie daraus etwas Neues entstehen lassen, das genügend Abstand zum generierten Bild hat. Lassen Sie Ihre Arbeit im Zweifel rechtlich prüfen.
Wahrscheinlich wird es eine Kombination aus diesen Lösungsansätzen sein, und es kommt sehr stark auf den jeweiligen Anwendungszweck an, für den Sie KI-Inhalte nutzen möchten.
Wer bei Schäden wie haftet, ist tatsächlich nicht so einfach zu beantworten. Im Zweifel fällt ein Schadensanspruch auf Sie zurück, da Sie die Inhalte öffentlich zugänglich machen. KI-Anbieter schließen eine Haftung für die Nutzung generierter Inhalte in ihren AGB aus (was nicht bedeuten muss, dass dies rechtskräftig ist) und weisen auf die eigene Verantwortung bei der Nutzung der Modelle hin. Am Ende gilt das Recht des Landes, in dem das Werk veröffentlicht wurde. Was passiert mit künstlerischen Werken im Internet? Viele Kreative stellen sich die Frage, ob ihre Werke ohne Erlaubnis zum Training von KI genutzt wurden. Diese Frage zu beantworten ist gar nicht so einfach, denn natürlich lassen sich die Big Player der Industrie ungerne in ihre Karten blicken. Einige gehen zwar den Weg der Transparenz, dabei muss man sich aber auf das Wort der Unternehmen verlassen. Fakt ist – trotz aller Transparenz –, dass das Internet als Quelle für das Training von KI-Systemen genutzt wurde. Und zwar das gesamte WWW. Und damit sehr wahrscheinlich auch urheberrechtlich geschützte Daten.
Rechtliches in Verbindung mit KI | 277
Wurden Ihre Werke zum Training verwendet? Ein paar Anbieter geben an, dass sie gewisse Dienste genutzt haben, die das gesamte Internet durchkämmen (sogenannte Crawler), und Bilder sowie Texte gesammelt haben, um ihre KIs zu trainieren. Der Online-Dienst haveibeentrained.com bietet die Möglichkeit, Datensätze zu durchsuchen, die z. B. als Trainingsgrundlage für Stable Diffusion genutzt wurden.
Bild generiert mit Midjourney
Das Problem: Das Training ist bereits passiert, und viele nutzen KI tagtäglich, um Inhalte zu generieren. Natürlich reagieren die KI-Unternehmen bereits mit Maßnahmen sowie Statements, aber das Ganze nun rückgängig zu machen, wird natürlich nicht möglich sein – außer es wird Gerichtsurteile geben, die das Löschen des Datensatzes beschließen. Besonders international ist das ein Problem – denn was die EU entscheidet, hat erst einmal wenig Einfluss auf den KI-Markt aus den USA oder China.
Müssen Kreative ihre Werke zukünftig »wegsperren«, damit sie nicht als Trainingsdaten enden? Oder ist es schon zu spät?
278 | Kapitel 6: Recht und Ethik
Zahlreiche Berufsverbände der Kreativbranche fordern in öffentlichen Stellungsnahmen mehr Transparenz und Entlohnung der Urheber und Urheberinnen, wenn ihre Werke als Trainingsdaten genutzt werden. KI wird als Bedrohung des kreativen Handwerks gesehen, und die Politik wird dazu aufgefordert, zu handeln. Möglich wären zukünftige Vergütungsmodelle, wie wir sie bereits mit Verwertungsgesellschaften (z. B. VG Wort oder Bild-Kunst) kennen. Wir müssen dem Thema mit Geduld entgegensehen. Es wird keine schnellen Lösungen geben, die für alle Beteiligten zufriedenstellend sind. Ein offener und konstruktiver Diskurs kann bei der Lösungs suche unterstützend wirken.
Was können Sie aktiv tun, um Ihre Inhalte zu schützen? Der Fachbegriff ist ein sogenannter Opt-out, also eine Möglichkeit, die eigenen Inhalte zu kennzeichnen, wenn Sie nicht möchten, dass diese als Trainingsdaten genutzt werden. Hier sind einige Ideen, was Sie aktiv tun können. Inwiefern diese dann im einzelnen Fall umsetzbar sind, müssen Sie für sich selbst entscheiden. J J J J J J J
Keine (privaten) Daten und Bilder hochladen (z. B. in Social Media) Keine urheberrechtlichen Werke ins Internet stellen Keine Bilder als Stockmaterialien anbieten Opt-out-Dienste nutzen, wie haveibeentrained.com Plattformen nutzen, die eine Opt-out-Möglichkeit bieten robots.txt-Datei im Webseitenverzeichnis ablegen (nur bedingt praktikabel) Sich politisch engagieren
Was leider nicht hilft, sind Wasserzeichen, denn diese kann KI inzwischen sehr gut entfernen. Es gilt zudem abzuwarten, was sich nun im Laufe mehrerer Gerichtsurteile tut und wie in Zukunft mit dem Thema umgegangen werden soll.
KI als Geschäftsmodell für Kreative? In Kapitel 1 bin ich auf die Problematik eingegangen, dass durch die Flutung des Internets mit KI-Content Probleme beim Machine Learning auftreten: Die Qualität sinkt. Es braucht also uns Menschen, die weiterhin neue Ideen entwickeln und Texte, Bilder, Filme uvm. erstellen. Ein mögliches zukünftiges Geschäftsmodell könnte also sein, dass wir nicht KI nutzen, um Inhalte zu monetarisieren, sondern dass wir von KI-Unternehmen bezahlt werden, um eigene Inhalte zu erstellen. Einige Stockagenturen setzen diese Art der Vergütung bereits um, und es finden sich auch Stellenanzeigen, die solche Tätigkeiten vermuten lassen. Damit könnte eine Winwin-Situation geschaffen werden: Die künstlerische Arbeit wird vergütet, die Modelle werden besser, damit wir sie wiederum nutzen können, und die Unternehmen vermindern das Risiko, verklagt zu werden. Fakt ist, dass sich einige Berufe verändern werden und neue geschaffen werden und dies Positives wie auch Negatives mit sich bringen
Rechtliches in Verbindung mit KI | 279
Bild generiert mit Midjourney
wird. Wünschenswert ist eine breitgefächerte Kreativwirtschaft, wo Handwerk und Technologie koexistieren, sich sogar ergänzen können.
Noch ist der Mensch aus der Gleichung nicht auszuklammern – ohne unsere Werke leidet KI derzeit an Qualitätsverlust. Wir sind also, ob wir wollen oder nicht, Teil dieser Technologie und deren Entwicklung. Hoffentlich wird dies zukünftig durch faire Vergütungsmodelle besser gewürdigt.
Prompts und Urheberrecht Eine interessante Frage ist, ob Prompts urheberrechtlich geschützt sind. Texte genießen den Schutz des Urheberrechts, wenn sie eine gewisse Schöpfungshöhe erreichen. Prompts können durchaus solch eine Schöpfungshöhe erreichen, doch das Ergebnis eines Bild- oder Textmodells, das aus diesem Prompt entsteht, ist zusätzlich »Interpretationssache« des KI-Modells und nicht durch den Prompt alleine entstanden. Das Internet ist voll von Promptlisten, die freiwillig und kostenfrei geteilt werden. Mittlerweile werden Prompts auch auf Plattformen wie beispielsweise promptBase. com gehandelt. Fest steht: Bisher gibt es keinen Anspruch auf Urheberschaft von Prompts. Es ist Ihre Sache, ob Sie Ihre Prompts mit anderen teilen möchten. Sollten Sie jedoch mit den Prompts anderer arbeiten, so können Sie die Urheber in geeigneter Form erwähnen. Am besten handeln Sie so, wie Sie ebenfalls gerne behandelt werden möchten.
Nutzungsrecht Das Thema Nutzungsrechte sollte in jedem Kreativunternehmen eine wichtige Rolle spielen, da sie unsere tagtägliche Arbeit betreffen. Im Gegensatz zum Urheberrecht
280 | Kapitel 6: Recht und Ethik
lassen sich Nutzungsrechte an andere übertragen. Das passiert automatisch, wenn wir einem Kunden ein fertiges Design zur Nutzung überlassen – auch wenn wir dies nicht explizit erwähnen. Dabei sind Art und Umfang dieser Rechteübertragung entscheidend für die Vergütung. Nutzungsarten Das Nutzungsrecht lässt sich in zwei Arten aufteilen: J J
das einfache Nutzungsrecht das ausschließliche Nutzungsrecht
Das einfache Nutzungsrecht findet sich meist bei der Lizenzierung von Stockmaterialien und greift bei den meisten Transaktionen zwischen Kund*innen und Kreativen – sofern nichts anderes vertraglich geregelt wurde. Auch wenn Sie mit KI-Software arbeiten, erhalten Sie dazu ein einfaches Nutzungsrecht. Das ausschließliche Nutzungsrecht kann vereinbart werden, wenn die Vertragspartner das Werk unter Ausschluss Dritter alleine für sich beanspruchen möchten. Es wird meist zuFür rein KI-generierte sammen mit einer höheren Vergütung vereinbart. Nur der Urheber selbst Inhalte gibt es keine kann nicht ausgeschlossen werden, das Werk weiterhin für sich selbst zu Urheberschaft. nutzen. Das Urheberrecht kann in Deutschland nicht übertragen werden. Dafür kann er Nutzungsrechte einräumen und diese vertraglich regeln, z. B. ob nur einige beschränkte oder unbegrenzte Nutzungsarten übertragen werden. Das Problem ist, dass es für rein KI-generierte Inhalte keine Urheberschaft gibt und somit auch keine Nutzungsrechte übertragen werden können, oder? Nutzungsrechte an KI-Bildern Zunächst sollten Sie sich die AGB (im Englischen »Terms of Service«) der jeweiligen KI-Anbieter genau anschauen und welche Bedingungen diese in der Nutzung ihrer KIModelle festgelegt haben. Dort finden Sie Angaben darüber, wer generierte KI-Inhalte wie nutzen darf. Die meisten erteilen Ihnen uneingeschränkte (auch kommerzielle) Nutzungsrechte und behalten sich diese ebenfalls vor – es sei denn, Sie gehen mit einem speziellen Bezahlmodell andere Vertragsregelungen ein. Kunden möchten immer wieder, dass Bilder auf ihren Namen lizenziert werden, damit sie diese weiterverwenden können. Die Frage, wie mit KI-Bildern umgegangen werden soll, bleibt zunächst unbeantwortet. Es schadet nicht, sich dahingehend zu informieren und aktuelle Entwicklungen zu beobachten. Eine kommerzielle Nutzung wird bei vielen KI-Anbietern ausdrücklich erlaubt, ob sich das auch auf den Verkauf oder die Lizenzierung der Bilder erstreckt, ist Auslegungssache. Dass es einige Bildagenturen gibt, die KI-Bilder als Stockbilder zulassen oder sogar ihre eigenen Bildgeneratoren anbieten, spricht dafür.
Rechtliches in Verbindung mit KI | 281
Exklusivität und Haftungsbeschränkung bei Getty Wer es exklusiver haben möchte, kann sich den neuen KI-Generator von Getty Images anschauen. Hier können KI-generierte Bilder von niemand anderem außer Ihnen lizenziert werden, und Getty bietet eine unbeschränkte Haftungsfreistellung. Noch befindet sich das Modell in der Demophase, und es gibt keine Informationen zu den Kosten oder einen Einblick in die Qualität des Outputs, aber solche Geschäftsmodelle generativer KI sind eine attraktive Lösung für den kommerziellen Einsatz – wenn auch sehr wahrscheinlich mit höheren Kosten verbunden.
Mein Vorschlag lautet daher: Lassen Sie am besten Ihre AGB und Nutzungsvereinbarung mit der Nutzung von KI-generierten Inhalten rechtlich anpassen und überprüfen, um hier keine Fehler zu begehen. Sprechen Sie offen mit Ihren Kunden und Kundinnen darüber, und finden Sie eine Lösung, die für alle Beteiligten zufriedenstellend ist. Transparenz und Kommunikation sind nicht zuletzt in Sachen KI wichtig und sollten auch hier eine wichtige Rolle spielen.
Datenschutz Daten sind schon lange eine wertvolle Währung für Technologieunternehmen. Wer die Daten hat, hat die Macht – das bedeutet, dass die Daten und Prozesse auf Entwicklerseite stehen und nicht bei den Usern. So ist es schon immer, ob es nun um Suchmaschinen oder Social Media geht: Unternehmen sammeln Daten und machen daraus neuere und »bessere« Produkte, die uns wiederum mehr an diese Produkte binden und uns manipulieren können, indem sie kontrollieren, was wir sehen und was nicht. Nun sind es mehrere hundert Millionen User, die tagtäglich mit KI-Modellen kommunizieren und arbeiten. Und dabei stellen sie nicht nur Fragen oder geben Prompts ein; um bessere Ergebnisse zu erlangen, muss die KI zusätzlich mit InforUns sollte bewusst mationen oder Bildmaterial versorgt werden. Wer z. B. Code von Chat sein, dass wir immer GPT erstellt oder bereinigt haben möchte, muss diesen der KI zur Verauch ein Stück von fügung stellen. Das landet alles auf den Servern von OpenAI – damit wahrscheinlich auch wiederum in den Trainingsdaten der KI – und finuns hergeben. det sich letztendlich – vielleicht – auch als Antwort bei anderen Usern wieder. Mittlerweile haben KI-Unternehmen reagiert und bieten gewisse Optionen an, um das Training mit den eingegebenen Daten zu verhindern. Obwohl ChatGPT und ähnliche Technologien bereits ein hohes Niveau in ihren Ergebnissen erreicht haben, ist das Potenzial der Künstlichen Intelligenz noch lange nicht vollständig ausgeschöpft. Daher befinden sich viele große KI-Modelle noch in der Betaphase, und wir trainieren die KIs mit, indem wir sie nutzen und unser Feedback geben. Natürlich werden Inhalte nicht ungeprüft übernommen, die Macht liegt immer
282 | Kapitel 6: Recht und Ethik
noch bei den Entwicklern. Uns sollte bewusst sein, dass wir immer ein Stück von uns hergeben, damit wir Technologie nutzen können. Lesen Sie also das Kleingedruckte, wenn es um Rechte geht und wie eingegebene und ausgegebene Daten genutzt werden dürfen. Das klingt nach unfairen Verhältnissen zwischen Usern und Entwicklern. Künstliche Intelligenz ist und bleibt ein Milliardengeschäft, und ohne diese Daten, die die KI noch besser machen, können wir sie wiederum nicht nutzen. Wir gehen also stillschweigend ein Abkommen mit KI-Anbietern ein, indem wir etwas von uns preisgeben, das die KI (bzw. das Unternehmen, das diese entwickelt) wiederum nutzt, um uns bessere Ergebnisse zu liefern. Es klingt wie eine Win-win-Situation – ob das so ist, das liegt im Auge des Betrachters.
Tipps zum Umgang mit persönlichen Daten Prüfen Sie, ob persönliche Daten enthalten sind, bevor Sie etwas in KI-Tools eingeben, z. B. Bilder von Personen, deren Einverständnis Sie nicht haben, oder Texte mit persönlichen Informationen und Geschäftsgeheimnissen. Texte lassen sich einfach abändern, Bilder im Zweifel lieber nicht hochladen oder so zuschneiden, dass keine Rechte verletzt werden. Die Lösung für solche Probleme sind möglicherweise auch eigene Modelle oder spezielle Unternehmenstarife, die mehr Möglichkeiten für Privatsphäre und Datenschutz bieten.
Fazit Letztendlich haben wir User nicht alles in der Hand, was die KI uns als Ergebnis unserer Anfrage präsentiert. Auch wenn wir das Gefühl haben, denn wir geben ja die Befehle ein. Was wir aber in der Hand haben, ist ein verantwortungsvoller Umgang mit KI, indem wir uns mit Nutzungsrechten, Datenschutz und Ethik auseinandersetzen und damit nicht nur mehr Kenntnisse im Umgang mit KI erlangen, sondern als Gestalterinnen und Gestalter eine Schnittstelle zwischen Menschen und KI bilden können. Wir gestalten das, was uns tagtäglich umgibt. Warum also nicht auch zum Thema KI?
Der EU AI Act Nicht unerwähnt sollte der AI Act der Europäischen Union bleiben, die sich damit im Dezember 2023 auf eine Gesetzgebung zur Nutzung und Regulierung von KI-Systemen einigte. Wie sich das Ganze auf die Realität auswirken wird, lässt sich zu diesem Zeitpunkt noch nicht sagen. Weitere Informationen dazu finden Sie unter: digital-strategy.ec.europa.eu/de/policies/european-approach-artificial-intelligence
Rechtliches in Verbindung mit KI | 283
Ethik und Umwelt Die Schattenseiten von KI dürfen trotz aller tollen Bilder, Videos, Texte und mehr, die wir mit ihr kreieren können, nicht unbeachtet bleiben. Diese sich so rasant entwickelnde Technologie bringt unsere Gesellschaft, Wirtschaft, Umwelt und unser Rechtssystem an ihre Grenzen. Selbst wenn man sich einigermaßen auf dem Laufenden hält, kann man unmöglich alles im Auge behalten. Die Themen Ethik und Umwelt sind dabei zu wichtig, um sie zu übersehen. Sie sind leider sehr komplex und hängen von vielen Faktoren ab, die Sie und ich nicht beeinflussen können. Doch es gibt immer wieder Wege und Mittel, Teil des Großen und Ganzen zu werden und es mitzugestalten. In jedem dieser Themen finden Sie bestimmt Möglichkeiten, einen Umgang damit zu finden, egal wie »klein« dieser sein mag.
Ethische Herausforderungen KI steht zu Recht in der Kritik, gewisse ethische Probleme zu verstärken, z. B. der Diskriminierung von Menschen, der Manipulation durch Fake News und Deepfakes oder der Ausbeutung von Menschen durch die unerlaubte Nutzung von urheberrechtlich geschützten Werken zum KI-Training, durch das Für uns alle gibt es Training in Niedriglohnländern zu unmenschlichen Konditionen uvm. Wege, Teil des Großen Es ist außerdem nicht von der Hand zu weisen, dass durch KI Jobs und Ganzen zu werden wegfallen oder sogar ganze Berufszweige obsolet werden können. und es mitzugestalten Viele fühlen sich unter Druck gesetzt, mitzuhalten und – komme, was wolle – KI einzusetzen, wo es nur geht. Den Preis zahlen oft diejenigen, die am wenigsten Macht haben. Daher möchte ich in diesem Buch voller Ideen und Möglichkeiten zum Thema KI auch die unschönen Seiten betrachten. Transparenz und Kennzeichnungspflicht Transparenz ist etwas, was wir uns alle wünschen. In der Werbebranche war das immer wieder ein heikles Thema, denn wer schon einmal die glänzenden Abbildungen auf Verpackungen und in Werbespots mit dem tatsächlichen Produkt verglichen hat, wurde das eine oder andere Mal bitter enttäuscht. Es wird getrickst, bereits beim Fotoshooting und spätestens in Photoshop werden ganz neue Welten geschaffen, die mit der Realität nicht mehr viel gemeinsam haben. Darauf gab es immer wieder auch Reaktionen: 2017 hat Frankreich beispielsweise ein Gesetz erlassen, dass Abbildungen von Menschen/Models, die bearbeitet wurden, gekennzeichnet werden müssen. Mit KI ist nun noch sehr viel mehr möglich, andere zu »täuschen« – wir können eigentlich keinem Bild mehr trauen, das wir sehen.
284 | Kapitel 6: Recht und Ethik
Einige KI-Anbieter bringen Transparenz in die Herkunft der Trainingsdaten und weisen dies als besonderen USP (Unique Selling Point) aus. Andere werden nachziehen, denn dies kann entscheidende Marktvorteile in der kommerziellen Nutzung ausmachen. Noch gibt es keine Kennzeichnungspflicht für KI-generierte Inhalte – doch es gibt bereits Stimmen, die diese Kennzeichnungspflicht fordern. Gesetzliche Regelungen fehlen, und wir müssen abwarten, wie sich das in Zukunft entwickelt. Einige Stockanbieter haben schon das Optionsfeld eingerichtet und in den Bedingungen erklärt, dass man KI-generierte Bilder, die man dort anbieten möchte, als solche kennzeichnen muss. Ansonsten steht es bisher jeder und jedem frei, die Inhalte freiwillig zu kennzeichnen. Hier gilt der gesunde Menschenverstand: Klären Sie Ihre Kollegen und Kundinnen auf, und machen Sie transparent, wenn Sie mit KI arbeiten. Geben Sie KI-Inhalte nicht als die eigenen aus. Diesen Punkt sprechen übrigens viele KI-Anbieter in ihren Nutzungsbedingungen an. Überlegen Sie sich, wie Sie die Inhalte kennzeichnen könnten.
Beispiele zur Kennzeichnung von KI-Inhalten Idee von »Name«, Prompt von »Name«, generiert mit »KI-Modell« Generiert mit »KI-Modell«, bearbeitet von »Name« J Prompt von »Name«, generiert mit »KI-Modell« J J
Es gibt hier keine Regeln, machen Sie einfach nachvollziehbar, wie das Bild entstanden ist und ob noch etwas damit gemacht wurde. Ihr eigener Anteil sollte damit nicht geschmälert werden, sondern Sie können damit auch zeigen, dass Sie mehr gemacht haben, als »nur« ein paar Wörter in ein KI-Modell einzutippen.
Diskriminierung KI-Systeme arbeiten mit Klassifizierung: Sie erhalten Daten, und diese werden klassifiziert, um damit das maschinelle Lernen zu unterstützen. Dabei »lernt« KI aus der Vergangenheit (bereits vorhandene Daten) und prognostiziert daraus die Zukunft, die am wahrscheinlichsten ist. Was ist, wenn die Daten nicht die (gewünschte) Realität widerspiegeln oder die Gegenwart sich wandelt oder gewandelt hat, es aber (noch) keine ausreichenden Daten darüber gibt? Das ist leider ein großes Problem, wenn es um KI-generierte Inhalte geht: Es kommt zu Formen der Diskriminierung. Das liegt nicht an der KI selbst, diese hinterfragt und beurteilt nicht – sondern es liegt an der Programmierung und den Trainingsdaten. Frage ich ein Language Model nach den größten Autoren der Geschichte, dann ist die Wahrscheinlichkeit groß, dass eher weiße, männliche Autoren genannt werden. Das wundert nicht, wenn man einmal in die Bücherregale schaut, sieht es dort ähnlich aus. KI spiegelt unsere Gesellschaft wider und zeigt mit Ergebnissen, die Menschen aus un-
Ethik und Umwelt | 285
serer Gesellschaft ausschließen oder diskriminieren, auf, wo noch Verbesserungspotenzial in der Erstellung von Medien und Inhalten sowie dem KI-Training – und unserer Gesellschaft – besteht. Unsere Sprache ist auch Teil dieses Problems, wurde bisher mehr das Maskulinum verwendet – im Englischen existiert für die meisten Nomen gar nicht erst eine weibliche Form. Gebe ich z. B. der KI Midjourney »Graphic Designer« als Stichwort, erhielt ich bisher mehr Abbildungen von männlichen Personen (siehe das folgende Praxisbeispiel). Mittlerweile kommen aber auch häufiger Abbildungen weiblicher Personen vor und auch von Menschen verschiedener Herkunft. Das Problem ist nicht nur ein gesellschaftliches, sondern entsteht ebenfalls durch technische Einschränkungen in der Entwicklung von KI. Hier hilft es, die KI direkt nach den gewünschten Inhalten zu fragen, um dieses Problem zu umgehen. Feststellen lässt sich auch, dass sich in den letzten Monaten viel in die positive Richtung entwickelt hat. Trotzdem können sämtliche Bemühungen im Prompting einseitige Darstellungen (Stereotypen) und diskriminierende Inhalte erzeugen – es liegt noch viel Arbeit vor uns und den KI-Entwicklern.
Was können wir gegen die Diskriminierung tun? Wie auch ohne KI sollten wir Abstand von diskriminierenden und stereotypischen Darstellungen von Menschen nehmen. Was die KI als Geschlecht, Hautfarbe oder andere Merkmale ausgibt, ist das Ergebnis der Trainingsdaten basierend auf menschengemachten Medien – also auch diskriminierende, sexualisierte und unvollständige Inhalte. Wir können beim Prompting darauf achten, dass wir Vielfalt und Diversität mit einbeziehen. Doch auch dann können die Darstellungen von der Realität abweichen bzw. auf Stereotype zurückgreifen, wie im folgenden Praxisbeispiel zu sehen ist. Wo wir Menschen uns gegenseitig nicht in Schubladen stecken sollten, basieren KI-Systeme auf der Klassifizierung, also genau diesem Schubladendenken. Schaffen wir also ein Bewusstsein für diese Problematik im Umgang mit Darstellungen von Menschen und sensibilisieren mit aktiver Aufklärung unser Umfeld, damit die Zukunft nicht mehr in diesem Maße von der Vergangenheit beeinflusst wird! Die Verantwortung bleibt zum Großteil auf der Seite der Nutzer und Nutzerinnen, die Inhalte generieren und veröffentlichen.
Neben der Diskriminierung kann KI auch die Realität und die Wahrnehmung stark verzerren, wie in Fotos von »perfekten« Körpern und Gesichtern, die es in der Realität so selten oder vielleicht auch nie geben kann. Schon jetzt ist das Internet durch solche Abbildungen überflutet, besonders durch die KI-Schönheitsfilter in den sozialen Medien. Manch ein Bild kann man von der Realität nicht mehr unterscheiden; damit kann man einerseits das Menschenbild verfälschen, andererseits sogar manipulieren, womit wir zum nächsten Punkt kommen.
286 | Kapitel 6: Recht und Ethik
PRAXIS Diversität und KI Viele der bildgenerierenden KI-Modelle wie Midjourney basieren auf der englischen Sprache. Diese kennt nur ein grammatisches Geschlecht. Gibt man z. B. eine Berufsbezeichnung ein, erscheinen häufig zunächst Männer.
/imagine closeup of a female graphic designer …
/imagine closeup of a graphic designer who uses creative AI midjourney on computer to generate designs, …
KI-Modelle wählen Alter und Herkunft bzw. Ethnie selbst, wenn man keine Angaben dazu macht. Bei der Ethnie findet sich bereits eine Vielfalt. Man sollte im Prompt daher spezifizieren, um wen es genau gehen soll. »Mann« und »Frau« klappt mit »male« und »female« sehr gut. Bei »diverse gender« werden eher feminine Bilder generiert, zur Sicherheit mit Regenbogenfarben. Dazu kommt, dass es schwierig zu definieren ist, wie »divers« auszusehen hat. Das Wort an sich beschreibt eine weite Range an Menschen, die eben keinem Stereotyp entsprechen.
/imagine closeup of a diverse gender graphic designer …
Praxis: Diversität und KI | 287
Manipulation und Deepfakes Fake-News sind keine Neuheit – aber durch KI erhalten sie einen neuen Stellenwert in unseren digitalen Medien. Es ist noch einfacher, mit Hilfe von Algorithmen massenhafte Falschinformationen und -abbildungen zu verbreiten. Und auch im Bewegtbild hat KI eine Revolution bewirkt: die Deepfakes. So beeindruckend diese auch sind, so gefährlich sind sie in den falschen Händen. Wo bereits getrickst wird, ist es keine Sache des Budgets und der Kunst Einzelner mehr, »echte« Fake-Bilder und -Videos zu generieren. Es ist für Laien quasi nicht mehr unterscheidbar, ob es sich um echte oder unechte Abbildungen handelt.
Deepfakes Deepfakes können verwendet werden, um Personen Dinge sagen oder tun zu lassen, die sie in Wirklichkeit nie gesagt oder getan haben. Das kann erhebliche Auswirkungen haben, da sie das Potenzial haben, die öffentliche Meinung zu manipulieren, die persönliche Reputation zu schädigen oder falsche Informationen zu verbreiten. Gleichzeitig können sie auch für unterhaltsame oder kreative Zwecke eingesetzt werden, etwa für Filmproduktionen, digitale Kunst oder satirische Videos. Um Deepfakes zu erstellen, braucht es nur wenig Ausgangsmaterial oder bei Personen des öffentlichen Interesses nicht einmal das. Es kursieren Bilder im Internet, auf denen der Papst einen weißen Mantel von Balenciaga trägt, oder es wird die Politik beeinflusst, indem Politikern Worte in den Mund gelegt werden oder diese in VideoCalls Live-Interviews geben, obwohl sie nie persönlich anwesend waren. Deepfakes können schweren Schaden anrichten.
Die Gefahr ist, dass durch unrealistische Abbildungen beispielsweise von Gesichtern und Körpern in den sozialen Medien auch überall sonst, z. B. in der Werbung, unerfüllbare Erwartungen geweckt werden. Diese Verzerrung der Wirklichkeit, nicht nur im politischen Sinne, kann das Selbstbild erheblich schädigen und unerfüllbare Erwartungen in Aussehen und Lebensstandard wecken. KI erschafft eine neue Art der »Realität«, und wir werden jeden Tag damit konfrontiert und sind Teil davon.
Nachhaltigkeit In der heutigen Zeit müssen wir uns Gedanken über die Nachhaltigkeit machen – egal in welchem Zusammenhang. Auch Designer und Designerinnen tragen eine Verantwortung und können ihre Kund*innen beraten, wenn es um nachhaltige Verpackungen, Konzepte und Drucksachen geht. Aber was ist mit digitalen Projekten? Auch diese verbrauchen sehr wichtige Ressourcen: Strom und (Trink-)Wasser.
288 | Kapitel 6: Recht und Ethik
Bild generiert mit Midjourney
Strom ist leider ein Produkt, das wir noch nicht vollständig nachhaltig erzeugen können. Trinkwasser wird immer mehr zu einem knappen Rohstoff. KI trägt einen hohen Anteil am Strom- und Wasserverbrauch. Doch wie kommt es, dass so ein schnell generiertes Bild oder ein Text so viele Ressourcen brauchen?
Wir alle müssen Verantwortung übernehmen und die Natur bewahren.
KI ist sehr durstig Um KI-Systeme zu trainieren und zu betreiben, braucht es sehr viele Rechner und Server, und die nutzen nicht nur sehr viel Strom, sondern müssen entsprechend mit sehr viel Wasser gekühlt werden. Zum besseren Verständnis: Laut einer Schätzung (es gibt keine offiziellen Daten über die Dauer des Trainings) einer Forschungsgruppe der Universität von Colorado Riverside und der Universität von Texas Arlington brauchte man für das Training von GPT-3 um die 700.000 Liter Wasser.
Ethik und Umwelt | 289
Bild generiert mit Midjourney
Je nach Klimazone der Datenzentren könnten es sogar mehr sein, da in heißeren Gegenden mehr Wasser zur Kühlung gebraucht wird. Das Wasser verdampft in die Atmosphäre und ist dem Wasserkreislauf erst einmal entzogen.
Wüstenregionen bieten Platz für Serverfarmen, was jedoch zu erheblich mehr Wasserverbrauch zur Kühlung führt, und das in Gegenden, in denen bereits wenig davon vorhanden ist.
Der Betrieb der Systeme braucht ebenso Wasser: Expertengruppen schätzen, dass ein Chatverlauf mit 25–50 Fragen mit ChatGPT ca. einen halben Liter Wasser verbraucht. Auch der riesige Strombedarf kann in manchen Gegenden nicht mehr gedeckt werden. Der Stromverbrauch ist ebenfalls nur eine Schätzung, aber laut einem Paper aus dem Jahr 2021 soll das Training von GPT-3 ca. 1.287 Gigawattstunden verbraucht haben – so viel wie 12 Haushalte in den USA in einem Jahr zusammen. Die daraus resultierenden Emissionen hängen von der Art des verwendeten Stroms ab. Das Training des neuen Modells GPT-4 verbrauchte nach Expertenmeinung noch mehr Ressourcen als GPT-3. KI kann Gutes tun Das klingt zunächst bedrückend, wenn man den Verbrauch von KI-Systemen untersucht. Doch KI kann natürlich helfen, den Ressourcenverbrauch zu optimieren – und das nicht nur im Bereich der KI-Nutzung, sondern in allen Bereichen unseres Lebens. Zum einen, um die Umwelt zu schützen, zum anderen, um Ressourcen und Kosten zu sparen. Auch im Designbereich ergeben sich durch KI neue Möglichkeiten, nachhaltiger und verantwortungsbewusster mit Ressourcen umzugehen. Ob im Produktdesign, beim Entwickeln von Textilien, Bauteilen oder Ideen für nachhaltigere Unternehmensentwicklung kann KI als Ratgeber und Entwicklungshelfer dienen.
290 | Kapitel 6: Recht und Ethik
KI und der Mensch Menschen wollen nicht das Gefühl haben, dass sie nur eine Quelle von Daten sind und mit mittelmäßigen Texten und Bildern abgespeist werden. Es gibt genug Beispiele, die eine Verwendung von KI z. B. in der Texterstellung von Produkttexten offensichtlich machen und denen wir als Konsumenten ausgesetzt werden, ohne dass jemand drübergeschaut hat. Das kann eine Marke und ein Image schädigen. Wir tragen die Verantwortung für das, was letztendlich ausgesendet wird. So verlockend es klingt, E-Mails, Webseitentexte oder Blogbeiträge zu automatisieren, sind wir doch darauf angewiesen, dass diese Inhalte bei den Zielpersonen auf Wohlwollen treffen. Und das sind Menschen. Selbst Google hat im Laufe der Zeit immer wieder Anpassungen im Suchalgorithmus hinsichtlich der Qualität der Webseiteninhalte gemacht. Wo eine Zeit lang SEO-optimierte Texte vor Schlüsselwörtern nur so platzten und damit völlig unleserlich wurden, wird heute mehr Wert auf den Inhalt und Wir tragen die Verantdessen Relevanz gelegt. Und das gilt auch für KI-generierte Texte.
wortung für das, was
Bild generiert mit Midjourney
Ein Szenario könnte sein, dass die KI E-Mails liest und Antwortvorschlä- letzendlich ausgesenge macht. Am anderen Ende ist ebenso eine KI und macht wiederum det wird. einen Antwortvorschlag. Befinden wir uns bereits in einem KI-Loop, der den Menschen ausklammert? Das kann in Einzelfällen passieren, aber ist zum Glück nicht die Tagesordnung. Es liegt an uns selbst, wie wir KI einsetzen und wofür. Es ist verlockend, hier und da den Kopf auszuschalten, Zeit zu sparen und die KI »machen zu lassen«. Ist das empfehlenswert?
KI kommuniziert mit KI – wird der Mensch hierbei zukünftig ausgeklammert?
Ethik und Umwelt | 291
Bild generiert mit Midjourney
Haben Sie eine der bekannten Apple-Präsentationen gesehen, dann haben Sie vielleicht bemerkt, dass zu jedem Produkt oder Feature eine Person aus dem Team präsentiert, die an der Entwicklung beteiligt oder federführend war. Das ist garantiert kein Zufall, sondern eine sehr durchdachte Marketingstrategie und soll eine persönliche Verbindung zum Produkt schaffen: von Menschen für Menschen. Wer weiß denn mehr, was der Mensch braucht, als der Mensch selbst? Ob KI bei der Entwicklung zum Einsatz kam? Vielleicht. Ist das wichtig? Weniger. Der Mensch steht im Fokus.
Neben all den technischen Möglichkeiten sollte der Mensch im Fokus bleiben, damit wir nicht plötzlich in einer unpersönlichen Welt aufwachen.
KI und Unternehmen Ein wichtiger Wirtschaftsfaktor ist die Effizienz. Je schneller und besser gewisse Prozesse ablaufen, desto mehr Gewinn. Alles wird schneller, es wird von den Mitarbeitenden erwartet, mit der Zeit zu gehen, und das bedeutet auch, mit KI zu arbeiten. Der Druck ist hoch und wird weitergereicht an alle, die Teil der Wirtschaft sind. Wenn Sie möchten, dass in Ihrem Unternehmen mehr mit KI gearbeitet wird, können Sie einige Schritte tun, um den Einstieg zu erleichtern. Kommunikation ist der Schlüssel in dieser Angelegenheit. Gehen Sie in den Dialog, hören Sie zu, und stellen Sie Fragen. Finden Sie heraus, warum sich manche verweigern. Manchmal sind es gefährliches Halbwissen (alles, was die KI erstellt, ist geklaut) oder Ängste (ich werde von der KI ersetzt). Gehen Sie wie in Kapitel 2 und 3 beschrieben vor, und überlegen Sie, wo und wie der Einsatz von KI Sinn macht. Beziehen Sie Ihre Mitarbeitenden mit ein, und testen Sie ein paar Tools. Bieten Sie Weiterbildungen an, wie Literatur oder Workshops; vielleicht hilft auch die Bildung eines Teams, das sich der Sache annimmt.
292 | Kapitel 6: Recht und Ethik
Man kann nichts erzwingen, daher ist es wichtig, gemeinsam an das Arbeiten mit KI heranzugehen. Erwarten Sie nicht, dass von heute auf morgen alle begeistert bei der Sache sind und plötzlich viel produktiver und kreativer sind. Geben Sie eine Einarbeitungszeit, und testen Sie die Tools an freien oder weniger dringenden Projekten. Fangen Sie klein an, mit wenigen Tools, und arbeiten Sie sich gemeinsam Schritt für Schritt durch den Workflow. Es gibt Unternehmen, die bereits viele Bereiche mit KI steuern lassen, sogar das Einstellen, Beurteilen oder sogar Entlassen von Mitarbeitenden. Das Betreuen von Kunden und Kundinnen durch Chatbots, automatisierte Hotlines oder automatisierte Antworten via E-Mail. Größere Webplattformen nutzen KI-generierte Texte, Artikel, Produktbeschreibungen uvm. Es gibt kein Entkommen mehr, wir sind mittendrin und können fast nicht mehr unterscheiden, wo der Mensch Maschinen sind nur so aufhört und die KI übernimmt. gut wie die Menschen,
die damit arbeiten.
Ihre Mitarbeitenden sind eine sehr wertvolle Ressource und noch wichtiger: Menschen mit Wünschen, Problemen und Gefühlen. Maschinen sind zwar nie krank und geben keine Widerworte, aber sie nehmen dafür alles hin, hinterfragen selten und machen auch Fehler. Aber sie sind nur so gut wie die Menschen, die damit arbeiten. Bedenken Sie das, wenn Sie KI zukünftig stärker einsetzen möchten. Versuchen Sie nicht, das Menschliche auszuklammern, sondern vielmehr zu ergänzen und zu unterstützen. Hören Sie auf Ihre Zielgruppe und was diese braucht. Und hören Sie darauf, was Ihre Mitarbeitenden brauchen.
Ethik und Umwelt | 293
/imagine a scene from the film Matrix directed by Die Wachowskis, showing a scene from the future of a graphic designer working with futuristic tools and artificial intelligence, photorealistic, high detail --ar 3:2
KAPITEL 7
KI als zukünftige Designassistenz
KAPITEL 7
KI als zukünftige Designassistenz Dieses letzte Kapitel gibt einen Einblick in mögliche Zukunftsszenarien der Designbranche. Während repetitive Aufgaben immer mehr von Maschinen und Programmen übernommen werden, eröffnen sich andererseits neue Möglichkeiten und Wege. Eine frühe Auseinandersetzung mit KI ist zwingend notwendig, wird sie doch unser aller Zukunft verändern. Gleichzeitig möchte ich betonen, dass die menschliche Kreativität und das kritische Denken nach wie vor eine entscheidende Rolle spielen werden. KI-Systeme werden zunehmend als Design-Assistenztools eingesetzt werden. Dabei können sie nicht nur Werkzeuge zur Erstellung von Designs sein, sondern Designer*innen können in Zukunft KI für viele weitere Möglichkeiten nutzen. Durch Technologien wie das Internet der Dinge (IoT) kann Design mit Hilfe von KI noch viel näher und individueller an die Zielgruppe oder sogar einzelne Personen angepasst werden. KI eröffnet neue Wege, die für die einen einen Gewinn und für die anderen einen Verlust darstellen können. Ein paar letzte Überlegungen und Ausblicke möchte ich in diesem Kapitel mit Ihnen teilen.
Das digitale Dilemma Durch den Einsatz von KI können digitale Dilemmata entstehen oder verstärkt werden. Ein digitales Dilemma bezieht sich auf eine Situation oder einen Konflikt, der durch die Nutzung digitaler Technologien und die damit verbundenen Herausforderungen entsteht. Wir Menschen müssen die Entscheidung treffen, wie wir mit den ethischen, sozialen oder rechtlichen Auswirkungen digitaler Technologien umgehen möchten. Ein digitales Dilemma kann verschiedene Formen annehmen. Zum Beispiel kann es sich um den Konflikt zwischen Privatsphäre und Bequemlichkeit handeln, wenn wir persönliche Daten preisgeben, um personalisierte Dienste zu nutzen. Die zunehmende Digitalisierung und der Einsatz von Technologien wie Künstlicher Intelligenz, Internet of Things (IoT) und sozialen Medien haben zu einer Vielzahl von digitalen Dilemmata geführt. Es ist wichtig, sich ihrer bewusst zu sein und sie zu diskutieren, um die Auswirkungen der digitalen Welt auf Individuen, Gesellschaft und die Umwelt besser zu verstehen und angemessene Lösungen zu finden. KI eröffnet neue Wege und Kanäle, die Kreative nutzen und mitgestalten können. Sie ist kein Trend, sondern wird ein fester Bestandteil unseres Lebens bleiben. Nun geht es darum, ver-
296 | Kapitel 7: KI als zukünftige Designassistenz
antwortungsvoll damit umzugehen und somit die Welt mitzugestalten, in der wir leben, damit wir alle in eine positive Zukunft blicken können.
Wichtige Fragen über die Zukunft mit KI Neben den rechtlichen und ethischen Fragen, die wir in Kapitel 6 näher betrachtet haben, gibt es viele offene Fragen in Bezug auf die Designbranche und die Zukunft unserer kreativen Arbeit. Natürlich kann niemand in die Zukunft schauen, aber schon jetzt kann man anhand der Entwicklungen in den letzten Monaten einige vorsichtige Antworten zu wichtigen Fragen wagen oder zumindest zum Nachdenken und Diskutieren anregen. Hier sind einige der wichtigsten Fragen, denen ich begegne, wenn ich aktuelle Diskussionen rund um KI mitbekomme. Wird KI uns Menschen bzw. Kreative ersetzen? Diese Frage stellen sich viele Kreative, und es gibt die verschiedensten Antworten darauf. Schauen wir uns daher den Designbereich genauer an: Die aktuellen KI-Modelle können keinen Menschen ersetzen, der mehr als nur eine einzige repetitive Aufgabe erfüllt (z. B. das Freistellen von Bildern). Nur wer über ein Werkzeug verfügt, ist nicht gleich Profi in diesem Gebiet. Eine Kamera macht niemanden zur Fotografin, wer InDesign auf dem Computer installiert hat, ist nicht plötzlich ein begnadeter Designer. Schlussfolgernd bedeutet das auch, wer mit KI arbeitet, ist nicht plötzlich Autor, Illustratorin oder Grafiker. Und wenn wir schon den Hammer mit der KI verglichen haben, macht mich das Nutzen eines Hammers nicht gleich zur Schreinerin. Kommen wir auf den Vergleich zwischen KI und einem Werkzeug zurück: KI als Werkzeug kann manche Tätigkeiten schneller und besser als ein Mensch erledigen. Das ist ein Fakt und wird auch in Zukunft in weiteren Bereichen der Fall sein. Aber dies beschränkt sich auf einzelne bzw. ähnliche Tätigkeitsbereiche und auch nur in einem begrenzten Radius. Wenn ich in Photoshop mittels inhaltsbasiertem Füllen und Prompts einem Foto einen komplett neuen Sinn gebe, dann macht die KI das nicht von selbst, sondern ich nutze sie, um das zu tun. Vielleicht kann sie es schneller und besser, als wenn ich selbst stundenlang an dem Composing arbeiten würde, aber ohne meinen Impuls würde Photoshops KI nichts machen. Und in diesem Moment prüft die KI auch nicht, ob diese Veränderung ethisch vertretbar ist oder ob das, was sie da generiert hat, einen Sinn ergibt oder inhaltlich korrekt ist. Nun kann jemand eventuell ohne oder nur mit geringen Photoshop-Kenntnissen von der KI profitieren. Doch die Person braucht trotzdem das Wissen über die Möglichkeiten und Grenzen des Programms sowie überhaupt die Idee für solch ein Bild – und nicht zu vergessen: die Fähigkeit, die Idee zu einem Prompt zu formulieren, das beste Ergebnis zu kuratieren und das Ergebnis – falls notwendig – nachzubessern. Wenn wir Menschen also ausgebootet werden, dann eventuell durch andere Menschen, die KI
Das digitale Dilemma | 297
für sich zu nutzen gelernt haben und damit schneller und effizienter sind. Zusammen mit tiefen fachlichen Kenntnissen bringt KI manch einen zu großartigen Ergebnissen innerhalb von kurzer Zeit. Wer KI bereits erfolgreich eingesetzt hat, weiß, was ich damit meine. Brauchen wir überhaupt noch Studium und Ausbildung? Diese Frage möchte ich ganz klar mit Ja beantworten. Nicht nur, weil ich Dozentin bin, sondern weil ich glaube, dass sich Kreative mit spezifischen Fachkenntnissen noch besser von der Masse abheben können. Dort, wo andere an (kreative) Grenzen stoßen, kommen Designer und Designerinnen ins Spiel und können – mit oder ohne KI – Probleme und Herausforderungen verschiedenster Art lösen. Zudem lernt KI mit unseren Daten. Wenn wir weiterhin KI nutzen wollen und diese sich weiterentwickeln soll, dann müssen wir Menschen umso mehr wieder zurück zu »handgemachten« Designs, Fotos und Grafiken. Nehmen wir als Beispiel die Fotografie. Meine moderne Kamera nimmt mir sehr viel ab: Sie zeigt mir an, ob die Belichtung passt, schaut, dass der Fokus sitzt usw. Ich kann das alles auch selbst, aber nicht so schnell und gut wie die Kamera. Also nutze ich die Annehmlichkeiten und mache damit schneller technisch korrekte Bilder. Auch ohne fotografische Ausbildung habe ich mir sehr viel Wissen angeeignet und über die Jahre vertieft. Was die Kamera und mein technisches Wissen nicht übernehmen können, ist, wie ich die Motive oder Menschen in den richtigen Bildaufbau zum richtigen Zeitpunkt mit dem besten Licht und am besten noch den passenden Emotionen im richtigen Winkel auf den digitalen Sensor und meine Speicherkarte bringe. Eine gute Kamera und technisches Wissen machen noch keine guten Fotograf*innen aus. KI kann täuschend echte Fotos bereits generieren, aber wenn es darum geht, uns Menschen und die »Realität« abzubilden, braucht es uns Menschen. Menschen entdecken Momente und Gelegenheiten, die sich niemals wieder genau so reproduzieren lassen. Ob beim Zeichnen und Malen, beim Fotografieren oder einfach unterwegs, wenn plötzlich die zündende Idee kommt. Das macht den Zauber guter Werke aus. Wer vorher austauschbare und mittelmäßige Ideen hatte, wird auch durch KI nicht plötzlich zum kreativen Superstar. Wer aber bereits jetzt oder in Zukunft über ein höheres Maß an Kreativität und Geschick verfügt, die Ideen umzusetzen, wird Wenn es darum mit KI vielleicht noch ganz neue Möglichkeiten entdecken.
geht, uns Menschen und die »Realität« abzubilden, braucht es uns Menschen.
Was die zukünftige Ausbildung von Kreativen angeht, gibt es viele Ideen und Denkansätze. Meiner Meinung nach wird die Designkompetenz eine viel wichtigere Rolle spielen, also das kreative Denken und Entwickeln von Strategien und Konzepten. Diese Kompetenz ermöglicht es uns, effektiv mit generativer Künstlicher Intelligenz umzugehen. Kreative, die es schaffen, sich mit dem, was sie tun, von der breiten Masse abzuheben, werden es einfacher haben. Das
298 | Kapitel 7: KI als zukünftige Designassistenz
kann bedeuten, dass man sich von altbewährten Lerninhalten trennen und sich auf zukunftsfähige Konzepte konzentrieren wird. Es findet eine Revolution des Arbeitens in allen Branchen und Bereichen statt, und die Kreativbranche ist davon stark betroffen.
Bild generiert mit Midjourney
Ein weiterer Ansatz wäre es, die KI als Mentor oder Lehrer zu betrachten, der verschiedene Möglichkeiten zur Umsetzung von Ideen aufzeigt und mit dessen Hilfe wir wiederum lernen, bessere Konzepte, Bilder und Texte zu erstellen. Viele Regeln der Ästhetik basieren auf mathematischen Formeln (z. B. Goldener Schnitt, Fibonacci-Reihe), und KI kann helfen, Bilder nach diesen Kriterien zu untersuchen und Verbesserungsvorschläge zu machen. KI kann auf Basis vieler Daten prognostizieren, welche Farben, Wörter oder Bilder am besten bei der Zielgruppe ankommen und welche nicht. Ob das zutreffen wird, kann am Ende nur die Zielgruppe selbst entscheiden. Es wird spannend, was sich in Zukunft noch an Möglichkeiten ergeben wird.
Ein Designstudium könnte in Zukunft aus realen und virtuellen Räumen bestehen, in denen mit neu entwickelten Designtools gearbeitet und gelernt werden kann. Mensch und Maschine sind dabei Lehrer oder Tutor zugleich. KI ist ein Werkzeug, das den Designprozess unterstützen kann und gleichzeitig Feedback gibt, ob und wie das Design die vorher definierten Ziele erreichen kann. Studierende lernen, Ideen frei von technischen Grenzen zu entwickeln, und KI wird dabei behilflich sein, Wege zur Umsetzung dieser Idee zu finden.
Kann jetzt jeder Mensch kreativ arbeiten dank KI? In Kapitel 2 haben wir uns sehr stark mit dem Thema Kreativität auseinandergesetzt und den Bezug zur Künstlichen Intelligenz hergestellt. Nun stellt sich vielen Kreativen die Frage, ob sie durch jeden oder jede ersetzt werden könnten, der oder die mit KI arbeitet bzw. in der Lage ist, irgendetwas damit zu generieren. Eines vorweg: Kreativität kann erlernt werden und ist keinem besonderen und ausgewählten Personenkreis
Das digitale Dilemma | 299
vorbehalten. Und jede*r mit Zugang zu einem KI-Tool kann etwas mehr oder weniger Ansehnliches und Lesbares damit generieren. Doch kreatives Arbeiten besteht aus mehr als dem Handwerk allein. Und Handwerk ist mehr als das reine Nutzen von Werkzeugen. Wir sind alle Problemlöser*innen, und es kommt besonders auf die Herausforderungen und Probleme an, die von der Norm abweichen. Das ist nicht nur kreativ, sondern innovativ. Das reine Handwerk wird sich in vielen Bereichen verändern, aber die ganzheitliche Arbeit und das Wissen, die in einem Kreativprozess stecken, werden nur ganz schwer durch Ganze GeschäftsKI ersetzt werden können, wenn die Person davor wenig bis keine Ahnung modelle basieren davon hat. auf solchen schnell
produzierten KIInhalten.
Bilder generiert mit Midjourney
Wie sieht es mit einfachen Bildern in Social Media und Co. aus? Diese werden ganz sicher immer mehr durch KI-Bilder ersetzt werden, wo doch viele bereits mit kostenlosen oder günstigen Vorlagen und Stockbildern arbeiten. Schnell konsumierbare Inhalte, die wenig bis kaum kreative Fähigkeiten benötigen, werden jetzt schon immer mehr mit Hilfe von KI automatisiert und in Massen ausgespielt. Ganze Geschäftsmodelle basieren auf solchen schnell produzierten KIInhalten. Aber es muss in einem Rahmen passieren, sodass sich die Zielgruppe nicht so fühlt, als würde sie nur noch mit KI-Inhalten konfrontiert werden. Sonst kann es schnell zum Verlust der eigenen Reputation, Reichweite und zur Entfremdung zwischen der Zielgruppe und der Person, dem Unternehmen oder der Marke kommen.
Vorschläge von Midjourney zu einem Social-Media-Post über Kreativität. Ich habe keinerlei Angaben zu Stil, Farben oder anderen Details gegeben. Diese Bilder passen in keinen meiner Social-Media-Kanäle. Ich muss also in der Lage sein, genau das zu formulieren, was ich brauche, und dann auswählen, was auch wirklich zum Rest meines Auftritts passt oder es gegebenenfalls anpassen, um den so wichtigen Wiedererkennungswert meiner Präsenz aufrechtzuerhalten.
300 | Kapitel 7: KI als zukünftige Designassistenz
Herausforderungen in der Anwendung von KI Das Arbeiten mit KI bringt ganz andere Herausforderungen mit sich, als wir bisher aus unserem Alltag kennen. Wir haben neue, sehr mächtige Werkzeuge, die mehr können als alle unsere Programme bisher, ja die sogar in manchen Bereichen schneller und besser sind als wir selbst. Doch bringt diese Technologie mehrere Begleiterscheinungen mit sich, die – wenn man sich ihrer bewusst ist – uns keinesfalls im Weg stehen müssen. Folgende Beobachtungen habe ich mit KI gemacht: Egal ob eigene Prompts oder die von anderen, das Ergebnis wird immer ein anderes sein. Es ist quasi unmöglich, ein und dasselbe Ergebnis zu erhalten. Daher muss im Prozess immer wieder selbst Input gegeben werden, oder es müssen eigene Fachkenntnisse mit hineinspielen, denn eine Garantie für Erfolg gibt es nicht. KI halluziniert immer etwas hinzu oder lässt Details weg. Selten ist ein Bild »perfekt« und kann ohne Nachbearbeitung genutzt werden. Jedes Bild, jeder Text ist eine Mischung aus Ihrer Vorgabe und »kreativer« Freiheit der KI. Werden Szenen zu komplex, kann es passieren, dass im Bild immer mehr Deformierungen und unklare Details erscheinen. Das Aufteilen der Szenen in einzelne Bilder wird dann unumgänglich sein. Erhält die KI nur wenige Informationen und Angaben, wirken die Bilder, Texte und Co. meist zu bunt, zu sehr wie Es ist sehr schwer, Digital Paintings oder sind weit von dem entfernt, was man generieren mit einem ganz genauen Bild im möchte.
Kopf an ein KI-Bild
Es ist sehr schwer, mit einem ganz genauen Bild im Kopf an ein KI-Bild he- heranzugehen. ranzugehen. Die Wahrscheinlichkeit ist sehr groß, dass man genau dieses Bild nicht generieren kann. Durchgehende Stile sind (noch) nicht zu 100 % möglich. Es gibt immer Abweichungen, besonders in der Darstellung von Personen in verschiedenen Situationen für eine Serie, ein Storyboard oder Ähnliches. Zudem kann KI niemals die Realität abbilden, das liegt in ihrer Natur. Jedes KI-generierte Bild ist eine künstlich geschaffene Realität, dessen sollten wir uns immer bewusst sein. Es gibt viele Modelle und Programme, die alle unterschiedliche Stärken und Schwächen haben. Meistens braucht man eine Kombination mehrerer Modelle, um Erfolg zu haben. Mit KI zu arbeiten verlangt außerdem viel Zeit. Man muss die Funktionen zunächst verstehen und dann lernen, diese je nach Bedarf miteinander zu kombinieren. Bei jedem Projekt muss man sich wieder von neuem herantasten. KI ist keine Lösung für alles und wird es auch nie sein. Erhalten Sie nach einer Weile kein zufriedenstellendes Ergebnis, ziehen Sie weiter und versuchen es auf eine andere Art und Weise. Auf KI ist außerdem nicht immer Verlass: Was heute wunderbar gelungen ist, kann morgen plötzlich nicht mehr funktionieren.
Das digitale Dilemma | 301
Mögliche Entwicklungen in der Zukunft Jetzt kommt doch noch die Kristallkugel. Aber zu gerne möchte ich meine Wünsche und Ideen für die Zukunft meiner Arbeit als Designerin und Fotografin mit einbringen. Folgende Überlegungen habe ich bisher gesammelt: J
J
J
J
J
J
J
J
J
Es wird vielleicht stärker individualisierte Werbung im öffentlichen Raum geben. Plakate werden durch digitale Flächen oder Hologramme ersetzt. Je nachdem, wer vorbeiläuft, ändert sich die Art der Werbung oder Information an dieser Werbefläche. Das klingt gruselig, ist aber in sozialen Medien, auf YouTube und bei Werbung auf Webseiten dank Cookies längst Alltag geworden. Ähnlich wie bei der individuellen Werbung könnte KI mehr Echtzeitanwendungen unterstützen, wie das Bearbeiten von Bildern und Videos während der Aufnahme oder das Anpassen von Inhalten nach Wetter, Tageszeit oder sogar Emotionen der Betrachter und Betrachterinnen. Ich wünsche mir ein sprachgesteuertes KI-gestütztes Betriebssystem, das Zugriff auf sämtliche Programme und Kenntnisse über deren Funktionen hat. Die KI kann dann Aufgaben im Hintergrund erfüllen, lernt durch mich hinzu und unterstützt mich genau da, wo ich es gerade brauche. Die Nutzung wird sich eventuell mehr auf Sprache und Gesten verlagern, und wir arbeiten in virtuellen Räumen – alleine oder gemeinsam. Arbeit wird noch mehr vom Standort abgekoppelt sein. Studieren könnte sich immer mehr in den virtuellen Raum verlagern, und Wissen könnte noch einfacher zugänglich sein. Es wird eine Symbiose aus menschlichen Dozent*innen und KI geben, die speziell auf die Lernbedürfnisse der Studierenden abgestimmt wird. Unternehmen wie Agenturen könnten eigene KI-Systeme entwickeln oder auf ihre Bedürfnisse anpassen, um einfache Prozesse zu automatisieren und um kundenspezifische Angebote zu gestalten. Kreativen werden kaum noch Grenzen gesetzt sein, wenn es um die Umsetzung ihrer Ideen geht. Vieles wird nicht mehr abhängig von technischen Möglichkeiten sein oder durch knappe Budgets begrenzt werden. Kreativen werden außerdem zwar einige Geschäftsbereiche mehr oder weniger entzogen, Berufsfelder werden sich drastisch verändern, aber es ergeben sich neue Geschäftsmöglichkeiten, und diese lassen sich dank KI schneller denn je realisieren. Ich erhoffe mir die Möglichkeit, mit KI eigene Kreativtools zu entwickeln und in vorhandene Programme zu integrieren, ohne mich mit der Programmierung auseinanderzusetzen.
Was sind Ihre Ideen und Wünsche für die Zukunft der Kreativbranche?
302 | Kapitel 7: KI als zukünftige Designassistenz
Ein erstes Fazit Neue Technologien bringen neue Verantwortungen mit sich. Dieses Buch möchte weder die Nutzung von KI verherrlichen noch eine Nutzung auf jeden Fall anraten. Es gilt, Chancen, Risiken und Möglichkeiten aufzuzeigen und abzuwägen. Jede*r kann, darf und sollte selbst entscheiden, ob und wie KI im eigenen Workflow genutzt werden kann. Im besten Fall bringt der verantwortungsvolle Einsatz von KI mehr Wert in unsere Arbeit und damit mehr Wert in unsere Gesellschaft. Kreative sind Teil unserer Kultur und gestalten die Räume mit, in denen wir leben. Sie und ich können also mitwirken, wenn es darum geht, wie wir alle mit KI arbeiten und leben bzw. KI ermöglicht, aus Gewohntem auch wie wir KI wahrnehmen.
auszubrechen
KI ermöglicht, aus Gewohntem auszubrechen und neue Wege auszupro- und neue Wege bieren. Sie befähigt Menschen, die viele Interessen und Ideen haben, diese auszuprobieren. umzusetzen und auszuprobieren. Vielleicht ist KI der Weg, auf den viele gewartet haben, die Grenzen zu überwinden, die uns bisherige Programme und Hardware oder sogar unsere Körper auferlegt haben. Vielleicht bringt uns KI aber auch wieder ein Stück unseren Wurzeln näher, und das Bedürfnis nach händischer Arbeit und Selbstverwirklichung wächst umso mehr. Das vermag gerade niemand vorherzusagen und ist höchst individuell. Zu gerne würden wir einen Blick in die Kristallkugel werfen, die uns die Zukunft verrät. Doch noch besser ist das aktive Gestalten der Zukunft, begonnen mit dem heutigen Tag, um zu inspirieren, aufzuklären, auf Risiken aufmerksam zu machen, zu diskutieren, zu experimentieren und so viel mehr. Es liegt nicht in den Händen der KI und auch nicht in denen ihrer Schöpfer, sondern in unseren Händen, wie wir unsere Zukunft (mit) gestalten möchten. Ich möchte dem Thema KI nicht unkritisch gegenüberstehen – auch wenn das eventuell anders wirkt, da ich viel Freude dabei habe, mich mit dem Thema auf eine positive und produktive Art auseinanderzusetzen. Doch je tiefer man in das Thema einsteigt, desto mehr wird klar, was noch dazugehört, wenn man mit dieser neuen Technologie arbeitet. KI braucht Regulierungen, und es müssen verantwortungsvolle Wege gefunden werden, um KI für die Menschen einzusetzen, nicht gegen sie. Die aktuellen Medien und Werbeanzeigen suggerieren: Wer jetzt nicht auf den Zug aufsteigt, wird für immer außen vor bleiben. Es wachsen Experten und Expertinnen wie Pilze aus dem Boden und wollen einem zeigen, wie man noch produktiver dank KI sein kann. Dabei gibt es ernstzunehmende generative KI-Tools erst seit Ende 2022 und Anfang 2023, und es gibt wenig Erfahrung aus der Langzeitnutzung. Unternehmen set-
Ein erstes Fazit | 303
zen Angestellte unter Druck, damit diese mit KI-Tools das bestmögliche Ergebnis erzielen. Aber auch unter Selbstständigen wie mir wächst der Druck, sich weiterhin von Mitbewerber*innen abzuheben. Wir leben in einer Zeit, die spannend, aber auch herausfordernd ist.
Wir leben in einer Zeit, die spannend, aber auch herausfordernd ist.
In diesem Buch haben Sie einige Tipps erhalten, wie Sie KI für kreative Zwecke nutzen können. Im Laufe der Zeit werden sich weitere Möglichkeiten öffnen; alleine in den Monaten, in denen das Buch entstanden ist, gab es wirklich zukunftsweisende Änderungen in fast allen KI-Modellen. Doch worauf kommt es wirklich an? Immer höher, schneller, weiter? Das kann irgendwann die eigene Kreativität oder sogar die Kreativität vieler Menschen praktisch »killen«. Statt die Menschen zu entlasten, kann der Druck zu mehr Burnout und psychischen Erkrankungen führen. Existenzängste sind ein schweres Gepäck, wenn man sich eigentlich für die Zukunft rüsten möchte. Hier möchte ich Ihnen noch ein paar Wege mitgeben, die ich für mich gefunden habe, mit der Situation umzugehen. Ein Buch über solch eine rasant wachsende und sich verändernde Technologie zu schreiben, ist eine große Herausforderung gewesen, und ich kann sehr gut nachvollziehen, wie es vielen Kreativen geht, die sich durch diese Entwicklung »abgehängt« fühlen. J
J
J
J
J
Machen Sie sich nicht verrückt! Verfolgen Sie die Lage, aber belasten Sie sich nicht damit, wenn es zu schnell geht. Es wird sich wieder etwas beruhigen und herausstellen, welche Anbieter und Programme sich langfristig bewähren. Gehen Sie wie im Buch beschrieben Schritt für Schritt vor, und schauen Sie sich ein Tool genauer an, bevor Sie das nächste testen. Nur weil man etwas mit Hilfe von KI machen kann, bedeutet das nicht, dass man dies ab jetzt auch tun muss. Wer Freude hat, etwas selbst zu tun, der sollte sich nicht dazu zwingen, dies aufzugeben, weil es z. B. nicht das meiste Geld einbringt, diese Tätigkeit zu tun. Repetitive Aufgaben können den Alltag entlasten. Wir können nicht 24/7 kreativ sein und auch nicht am laufenden Band revolutionäre Ideen hervorbringen. Wir und unser Gehirn brauchen Pausen. Das kann so etwas sein wie das Bad zu putzen oder Rechnungen zu sortieren, ein Bild freizustellen oder Farbvarianten auszuprobieren. Gönnen Sie sich trotz KI diese Pausen, und versuchen Sie nicht, einen für Sie optimalen Workflow zu verändern und damit zu verschlechtern. Haben Sie Spaß, wenn Sie mit KI-Tools experimentieren. Stellen Sie sich eine Sandkiste vor, in der Sie spielerisch ausprobieren, verwerfen und weiterentwickeln können. Bleiben Sie bei wenigen Tools, und lernen Sie diese besser kennen, um ihr volles Potenzial zu entwickeln. Vergessen Sie nicht, dass wir Menschen sind und für Menschen etwas schreiben, gestalten, kreieren – nicht für den Algorithmus. Vor lauter Optimierung gehen der Spaß und auch die Authentizität verloren. Nur weil wir nun Inhalte am laufenden
304 | Kapitel 7: KI als zukünftige Designassistenz
J
J
Band erstellen können, müssen wir das nicht allen zumuten und diese ungefiltert veröffentlichen, wie es andere bereits tun. KI kann Co-Creator und Starthilfe im Kreativprozess sein. Wir sind jedoch die Inputgeber, die Ideenentwickler und auch Kuratoren zugleich. Wir nutzen KI, wenn es uns einen Mehrwert bringt, ansonsten können wir uns nur auf unsere eigene Erfahrung und unser Wissen verlassen, das noch nie so wichtig war wie jetzt. KI macht uns nicht zu besseren Gestalter*innen. Sie ermöglicht es, Aufgaben manchmal besser und schneller zu erledigen. Sie kann uns aber auch aufhalten, Zeit und Geld kosten und unsere Kreativität sogar mindern.
Es fällt schwer, für dieses Buch ein Ende zu finden. Warum eigentlich ein Buch über eine so rasant fortschreitende Technologie, die sogar während der kurzen Zeit des Schreibens enorme Entwicklungssprünge gemacht hat? Ganz einfach: Bücher sind umso wichtiger in dieser schnellen Welt, weil sie eine Momentaufnahme bieten, die im Digitalen schnell untergeht. Sie helfen, durchzuatmen und in Ruhe Seite für Seite durchzulesen und bei Bedarf noch einmal zurückzublättern. Hier hat sich jemand die Zeit genommen, das Wissen zu einem sinnvollen Werk zusammenzutragen, damit Sie es einfacher haben, in das Thema KI einzusteigen und einen nachhaltigen Umgang damit zu finden. Bleiben Sie neugierig, kreativ und experimentierfreudig! Solange Sie sich Ihrer Sache sicher sind, kann KI Ihnen nicht »gefährlich« werden, sondern eher eine Chance für die Zukunft darstellen. »Das letzte Bild« hat die KI.
/imagine 3D graphic the end of a book about generative ai in graphic design and creativity, virtual reality and holograms, high detail, orange and violet colors --ar 16:9
Ein erstes Fazit | 305
Glossar
Algorithmus Eine Reihe von Anweisungen oder Regeln, die von einem Computer ausgeführt werden, um ein bestimmtes Problem zu lösen oder eine Aufgabe zu erfüllen. API (Application Programming Interface) Eine Sammlung von Definitionen und Protokollen, die es verschiedenen Softwareanwendungen ermöglicht, miteinander zu kommunizieren und Funktionen oder Daten auszutauschen. Big Data Große Mengen von Daten, die aufgrund ihres Umfangs, ihrer Vielfalt und ihrer Geschwindigkeit mit herkömmlichen Datenverarbeitungsmethoden nicht effektiv verarbeitet werden können. Bildinterpolation Bildinterpolation ist eine Methode, um die Größe eines digitalen Bildes zu ändern, indem zwischen vorhandenen Pixeln neue Pixel berechnet und eingefügt werden (das Hochskalieren bzw. Upscaling), um das Bild glatter und detaillierter erscheinen zu lassen. Deep Learning Ein Teilbereich des maschinellen Lernens, der sich auf den Einsatz tiefer neuronaler Netze konzentriert und komplexe Muster in großen Datenmengen erkennen kann. Deepfake Eine Technik, die maschinelles Lernen und KI nutzt, um realistische, aber gefälschte Audiound Videodateien zu erstellen.
306 | Glossar
Designsheet Dokument oder eine digitale Datei, die die visuellen Richtlinien und Standards für ein Designprojekt festlegt. Einfache KI Eine grundlegende Form der Künstlichen Intel ligenz, die spezifische, einfache Aufgaben ausführen kann, ohne komplexe Berechnungen oder Lernfähigkeiten. GAN (Generative Adversarial Networks) Ein maschinelles Lernmodell, bei dem zwei Netzwerke, ein generatives und ein diskriminatives Netzwerk, gegeneinander antreten, um die Erzeugung neuer, realistischer Daten zu verbessern. Generative KI KI-Systeme, die in der Lage sind, eigenständig Inhalte zu erstellen, wie z. B. Texte, Bilder, Musik oder andere Medien. GUI (Graphical User Interface) Eine Benutzeroberfläche, die es Benutzern ermöglicht, mit elektronischen Geräten über grafische Symbole und visuelle Indikatoren zu interagieren. Hochskalieren Siehe Beschreibung zu »Bildinterpolation«. Humanoide Roboter oder virtuelle Wesen, die menschenähnliche Eigenschaften und Verhaltensweisen aufweisen.
Input-Layer Die erste Schicht in einem neuronalen Netzwerk, die Eingabedaten empfängt und an die nächsten Schichten weiterleitet.
Moodboard Eine visuelle Zusammenstellung von Bildern, Texten und Materialien, die als Inspirationsquelle für ein kreatives Projekt dient.
Internet of Things (IoT) Das Internet der Dinge (IoT) bezieht sich auf die Vernetzung von alltäglichen Gegenständen und Geräten über das Internet, sodass sie Daten senden, empfangen und Aktionen automatisch ausführen können.
Multimodal Im Kontext generativer Künstlicher Intelligenz bezieht sich »multimodal« auf Systeme oder Ansätze, die mehrere Arten von Dateninputs, wie Text, Bild, Audio oder Video, integrieren und verarbeiten können.
Künstliche Intelligenz (KI) Die Fähigkeit von Computern und Maschinen, Aufgaben auszuführen, die normalerweise menschliches Denken und Urteilsvermögen erfordern.
Neuronale Netze KI-Modelle, die von der Struktur und Funktion des menschlichen Gehirns inspiriert sind und aus Schichten von verbundenen »Neuronen« bestehen, um komplexe Aufgaben zu verarbeiten.
LLM (Large Language Models) Große Sprachmodelle, die enorme Mengen an Textdaten verarbeiten können, um Sprachverständnis und Sprachgenerierungsaufgaben durchzuführen.
NFT (Non-Fungible Token) Ein NFT ist ein digitales Zertifikat, das auf einer Blockchain gespeichert ist und die Einzigartigkeit und das Eigentum an einem digitalen Objekt, wie einem Kunstwerk oder Sammlerstück, bestätigt.
Machine Learning Ein Bereich der KI, der es Maschinen ermöglicht, aus Daten zu lernen und Entscheidungen oder Vorhersagen zu treffen, ohne explizit programmiert zu werden.
Output-Layer Die letzte Schicht in einem neuronalen Netzwerk, die die endgültigen Ergebnisse oder Vorhersagen des Netzwerks liefert.
Metaversum Das Metaversum ist eine virtuelle Welt, in der Menschen durch Avatare interagieren und verschiedene Aktivitäten in einer computergenerierten Umgebung ausführen können.
Parameter In der generativen KI sind Parameter Anweisungen oder Regler, die man einstellt, um zu bestimmen, wie die KI bestimmte Aufgaben, wie das Erstellen von Bildern oder Texten, ausführt.
Glossar | 307
Plugin Ein Plugin ist eine Software-Erweiterung, die zusätzliche Funktionen in eine bestehende Anwendung integriert, ohne das Kernprogramm zu verändern. Prompt Ein Eingabetext oder eine Anweisung, die einem KI-System gegeben wird, um eine bestimmte Art von Antwort oder Ergebnis zu generieren. Prompt-Engineer Fachleute, die sich auf die Gestaltung und Optimierung von Eingabeaufforderungen (Prompts) für KI-Systeme spezialisieren, um die Leistung der KI in verschiedenen Anwendungsbereichen zu maximieren. Python Eine vielseitige und beliebte Programmiersprache, die häufig in der KI- und Datenwissenschaft verwendet wird.
Tool Ein Werkzeug oder eine Software, die speziell entwickelt wurde, um bestimmte Aufgaben zu erleichtern oder zu automatisieren. Turing-Test Ein Test zur Bestimmung, ob eine Maschine menschenähnliche Intelligenz aufweist, indem sie menschliche Teilnehmer überzeugt, dass ihre Antworten von einem Menschen stammen könnten. UI/UX (User Interface und User Experience) UI bezieht sich auf die Gestaltung der Benutzeroberfläche einer Software oder eines Geräts, während UX sich auf die Gesamterfahrung des Benutzers beim Interagieren mit dem Produkt bezieht. Unsupervised Learning Ein maschinelles Lernverfahren, bei dem Modelle anhand von Eingabedaten ohne vorherige Kenntnis der Ausgabedaten trainiert werden.
SEO (Search Engine Optimization) Die Praxis, die Sichtbarkeit einer Website in den unbezahlten Ergebnissen einer Suchmaschine zu erhöhen.
Upscaling Siehe Beschreibung zu »Bildinterpolation«.
Supervised Learning Ein maschinelles Lernverfahren, bei dem Modelle anhand von Eingabedaten und bekannten Ausgabedaten trainiert werden.
VR und AR (Virtual Reality und Augmented Reality) VR ist eine vollständig immersiv simulierte Umgebung, während AR eine erweiterte Realität darstellt, bei der digitale Informationen in die reale Welt integriert werden.
Token Einheit der Informationsverarbeitung, die einen Teil von Text, Bild oder anderen Daten repräsentiert, auf den das KI-Modell während des Lern- oder Generierungsprozesses zugreift.
308 | Glossar
Überblick über die im Buch verwendeten KI-Modelle Im Laufe dieses Buchs werden verschiedene Anwendungen von KI-Modellen anhand von Beispielen demonstriert. Um diese Modelle leichter identifizieren zu können, werden ihre Logos jeweils vor dem Prompt dargestellt, sodass Sie schnell erkennen können, um welches spezifische KI-Modell es sich jeweils handelt. Nicht bei jedem Bild finden Sie den zugehörigen Prompt. Dafür gibt es ein PDF zum Download, in dem die meisten Bild-Prompts aus dem Buch sowie weitere Promptbegriffe zu finden sind. Um die Datei herunterzuladen, gehen Sie auf die Website zum Buch unter www.rheinwerkverlag.de/5793. Im ersten Kasten unter »Materialien« finden Sie die Downloaddateien.
rans T former) basiert. ChatGPT wird für eine Vielzahl von Anwendungen eingesetzt, darunter Konversationssimulationen, Textgenerierung, au to matisierter Kundenservice und Bildungszwecke. DALL-E Ebenfalls von OpenAI entwickelt, ist DALL-E ein KI-Modell zur Bildgenerierung, das in der Lage ist, Bilder und Illustrationen basierend auf Prompts zu erzeugen. Es wird häufig in kreativen Berufen eingesetzt, um visuelle Konzepte und Ideen zu visualisieren und zu erforschen. DALL-E ist außerdem in ChatGPT 4 integriert, und alle mit DALL-E generierten Bilder in diesem Buch wurden über den Chatdialog mit ChatGPT gemacht.
Beispiel prompt Schreibe folgenden Text im Stil von Yoda aus Star Wars um: …
Am Logo können Sie erkennen, dass es sich hier um ein Promptbeispiel für ChatGPT handelt. Midjourney Entwickelt von der gleichnamigen Organisation, ist Midjourney ein KI-basiertes Bildgenerierungsmodell. Es wird verwendet, um aus Prompts detaillierte Bilder zu erstellen. Midjourney findet häufig Anwendung in der kreativen Industrie, für Grafikdesign, Konzeptkunst und visuelle Medien. ChatGPT Dieses Modell wurde von OpenAI entwickelt und ist ein fortschrittliches Sprachverarbeitungs modell, das auf GPT (Generative Pretrained
DreamStudio Entwickelt von Stability AI, ist DreamStudio ein KI-gesteuertes Tool zur Bildgenerierung – basierend auf dem Open-Source-Modell Stable Diffusion. Es wird verwendet, um aus Textbeschreibungen realistische oder fantasievolle Bilder zu erstellen. DreamStudio findet Anwendung in der künstlerischen Schaffung, im Grafikdesign und in der digitalen Kunst. Adobe Firefly Adobe Firefly, entwickelt von Adobe, ist ein KIgesteuertes Grafikdesign-Tool, das Kreativen bei der Erstellung von Grafiken, Illustrationen und visuellen Elementen hilft. Es nutzt maschinelles Lernen, um Designprozesse zu vereinfachen und zu automatisieren, und wird hauptsächlich in der professionellen Design- und Kreativbranche eingesetzt.
Überblick über die im Buch verwendeten KI-Modelle | 309
Index :: 182 -- 164 --ar 174 --chaos 165 --niji 183 --no 155, 178 --seed 190 --style raw 180 --tile 184 -- v6.0 195 --weird 165 / 164 /blend 147 /describe 188, 194 /imagine 148, 174 /settings 180 /shorten 167, 194 /show 190 3D 153
A Abonnement 128 AdCreative.ai 117 Adobe Express 117, 222, 228 Adobe Firefly 23, 25, 169, 218, 222 Beispielprompt 145 Bilder weitergeben 222 Bildprompt 146 Mockup 245 Möglichkeiten 218 Parameter 157 Produktfotografie 226 Prompting 231 Schrift 220 Speichern 223
310 | Index
Stile 223, 224 Text zu Bild 222 Adobe Fonts Library 237 Adobe Illustrator 23, 236 Modell 239 Nutzung 236 Adobe Photoshop 229, 233 Adobe Sensei 229 Adobe Sensei GenAI 21 Advocatus Diaboli 76, 88 AGB 281 Alexa 42 Algorithmus 19, 306 Alphabettechnik 76, 88 Analogietechnik 76, 88 Angst 29, 65 Angst vor dem weißen Blatt 70 Animation 146, 264 Anime 183 Anwendungsbereiche 112, 116 API 306 App-Design 209 AR 308 Artbreeder 117 Assoziationen 76 Prompt 88 Auflösung 159 Aufzählung 203 Ausbildung 298 Ausschließen 155 Ausformulieren mit ChatGPT 90 Automatisierungs möglichkeiten 46 Avatar 269
B BARD 117 Barrieren 40 Beispielmaterial 309 Bezahlmodelle 127 Big Data 30, 306 Bild Anzahl 159 bearbeiten 152 beschreiben 146, 188 beschreiben mit ChatGPT 203 erweitern 64, 176 exportieren (Midjourney) 175 Format 158 in KI weiterbearbeiten 146 interpolieren 260 kombinieren 148 Maschine oder Mensch? 31 mit KI generieren 23 Seitenverhältnis 158 variieren 176 verändern 150 verbinden 147 verschmelzen 146 Bildauflösung 157 Bildbearbeitung 146 Photoshop 233 Bildbereich bearbeiten 152 Bildbeschreibung 146 Bildbriefing 104, 106 Bildgenerator Bildprompt 146 Textprompt 142 Bildgenerierung Anzahl 157
Bildgestaltung 153 Bildidee 226 Bildinterpolation 306 Bildlooks 153 Bildprompt 146 Anwendungszweck 146 gewichtigen 187 mit ChatGPT entwickeln 203 mit Textprompt kombinieren 148 Video 266 Bildrecherche 104 Bildvarianten 146, 169 DreamStudio 256 Bildzuschnitt 64 Black Box 31 Blende 228 Blockaden 74 Brainstorming 76, 104 Briefing 78, 104 BriefumschlagEmoji 160, 190
C Canva Magic Studio 117 Chaos 165 character.ai 89 ChatGPT 23, 28, 112, 169 Anwendung im Designalltag 29 App-Design 209 auf eigenen Textstil trainieren 140 Ausformulieren 90 Ausgabe als Tabelle 203 Bilder beschreiben 203 Bilder erstellen 202
Bilder kombinieren 148 Bildprompt 146 Chat erstellen 201 Coding 204 Designs entwerfen 208 Design Thinking 93 Einsatz 201 Experte 202 Formel 203 Ideen kombinieren 90 Kampagnenkonzept 137 Konzeption 205 Konzeptionsphase 112 Kreativbriefing 78 Kreativität 55 Methoden erklären lassen 95 Moderation 93 Perspektivwechsel 71 Prompt-Formel 203 Prompts erstellen 202 Sprachsteuerung 217 Storytelling 91, 92 Textanalyse 112 Texte generieren 203 Textprompt 140 ChatGPT 4.0 200 Code 42 ChatGPT 204 Copyright 273 Corporate Design 245 Credit 219 Csikszentmihalyi, Mihaly 54 Cyborg 16 CycleGAN 117
D DALL-E 117, 169, 201 Prompt 142, 145 Datamining 275 Dataset 123 Daten 32 für Training 123 Datenanalyse 112 Datenschutz 125, 282 de Bono, Edward 52 DeepDream 117 Deepfake 288, 306 DeepL 26 Deep Learning 306 Definition KI 12 Design Anwendungsmöglich keiten von KI 46 mit ChatGPT 208 Designassistenz 296 Designmockup 209 Designprozess 208 Designsheet 209, 306 Design Thinking 93 ChatGPT 93 Prozessschritte 93 Designworkflow 100 Diffusion Model 20, 24, 117 Discord 172 Discriminator 23 Diskriminierung 285 diverse gender 287 Diversität 287 Doppelpunkte 164 DreamStudio 248 Beispielprompt 145 Parameter 157 Prompt Weights 252
Index | 311
Seed 251 Style 163 Drittel-Regel 60, 61 Durchschnittliche Lösung 65
E Effekt 227 Eigenes KI-Modell 122 programmieren 123 trainieren 123 Einfache KI 306 Einsatz im Design 46 Einsatz von KI problemorientiert 102 prozessorientiert 102 E-Mails zusammenfassen 104 Emoji 152 Emotion 65 Englisch 134 Entwicklung 302 Erweitern 64 Ethik 125, 272, 284 Ethnie 287 EU AI Act 283 Extrameile 65, 68
F Fachbegriffe 153 Farbkombinationen 104 Farbschema 107 Fibonacci-Reihe 58, 61 Flair 247 Flexibilität 69 Foodfotografie 169, 258 Format 142, 158 Formatierung 220 Formel
312 | Index
Textprompt für Bildgeneratoren 142 Foto 163 Prompt mit Fach begriffen 153 Fotohintergründe 184 Fotorealistisch 172 Frame Interpolation 264
G GAN → Generative Adversarial Networks Gegenteil 224 Gendern 286 Generation Step 157 Generative Adversarial Networks 20, 23, 117, 306 Generative Füllung 218, 230, 233 Generative KI 20, 306 Generatives Erweitern 64 Generatoren 23, 134 Geschäftsmodell 279 Geschenkpapier 184 Geschwungene Klammern 179 Gesten 43 Gestenbasierte Schnittstellen 45 getimg.ai 258 Getty Images 282 Gewicht 157, 163 GitHub 24 Goldener Schnitt 59, 61, 63 Google 26 Google Colab 122 Google Slides 205 Google Translate 26 GPT Datenschutz 215
erstellen 211 Ideen 214 Grafische Benutzeroberflächen 44 GUI 44, 306
H Haftung 277 Halluzination 38 Hammer 14 Haptische Schnittstellen 45 Hauptmotiv 61, 142 Herausforderung 301 HeyGen 269 Hidden-Layer 14 High-Fashion 224 Hinauszoomen 176 Hochskalieren 306 Humanoide 16, 306
I Icon 244 Idee 90 beschreiben 90 kombinieren 90 visualisieren 90 Ideenfindung 75, 112 Prompt 89 Ideenmaschine 75 Ideenpräsentation 106 Ideensammlung 106 Illustration 163 Prompt mit Fach begriffen 153 Image to Image 146 Image to Text 146 Image to Video 146 Image Weight 187 Imitation 90
Implementierung Ansätze 100 in den Designworkflow 101 Problemorientiert 110 Prozesszentriert 102 Zehn Schritte 103 Individualisierung 122 Infografik 207 ChatGPT 169 Informationsgestaltung 112 Inhalt von KI generiert 32 Inhaltstyp 157, 163 Input-Layer 21, 307 Input-Neuronen 14 Inspiration 104 Intelligenz 13 Internet of Things 307 Interpolieren 157, 260 Interpunktionszeichen 164 Isometric 163
J JavaScript 122 Jupyter Notebooks 122
K Kampagnenkonzept 137 Kennzeichnungspflicht 284 KI 307 als Sparringpartner 71 bei Kreativblockaden 70 Definition 12 ersetzt Menschen 297 Funktionsweise 12 im Design 46 Lernmethoden 21 Probleme 29 und Harmonie 61 Weiterentwicklung 32
KI-Assistent 44 KI-generierter Content erkennen 31 Kill your darlings 73 KI-Modell 20, 116 Individualisierung 122 Versionen 162 KI-Präsentations-Tools 205 KI-Programme 172 KISS-Prinzip 35 KI-System 20 KI-Technologien 117 KI-Tool auswählen 115 finden 105 Liste 115 Recherche 117 Klammern 164, 253 Klassifizierung 286 Kombination 90 Kommunikationsschnittstellen 124 Komposition 60, 142 Kompositionsregeln vorgeben 63 Konsistenter Stil 188 Konzeption 112, 205 Konzeptionsphase 112 Kopfstandmethode 76, 88 Körnung 169 Kreativalltag 172 Kreativblockaden 70 Kreativbriefing mit ChatGPT 78 Kreativität 52 Auswirkungen von KI 65 ChatGPT 55 Defintion 53 Individuell 54 messen 55 und mathematische Regeln 58
Kreativitätstechniken 75 mit KI 77 Prompts 88 und Bilder 224 Kreativmaschine 96 Kreativprozess 101, 103 Kundendaten 113 Kunst Prompt mit Fach begriffen 153 Kunst des Weglassens 73 Künstliche Intelligenz → KI Kuratieren 34
L Large Language Model 20, 28, 117 Anwendung im Designalltag 29 Fähigkeiten 29 Large Language Models 307 Layer 21 Layoutvorlagen 117 Licht 142 Line Art 163 LLAMA 117 LLM → Large Language Model Logodesign 242 Loyalty-Programm 113
M Machine Learning 21, 307 Magnific AI 159, 260 Make Square 176 Makro für PowerPoint 205 Manipulation 288 Männliche Darstellungen 287 Markenrecht 276
Index | 313
Marktführer 119 Maskulinum 286 Massentauglich 65 Mathematik 58 Menschen 155 Menschlichkeit 16 Mensch-MaschineInteraktion 40 Metaversum 307 Microsoft Designer 117 Midjourney 23, 117, 169, 172 Beispielprompt 145 Bilder erweitern 176 Bilder exportieren 175 Bilder herunterladen 175 Bilder kombinieren 148 Bilder skalieren 176 Bilder variieren 176 Bilder zoomen 176 Bildprompt 146, 147 /blend 147 Channel 194 Chaos 165 Einsatz 173 erste Schritte 174 Funktionen 180 Konsistenter Stil 188 Modelle 180 Moodboards 106 Muster 184 Negativprompts 155, 178 Parameter 157 Probleme 169 Prompt 142 Promptanordnung 143 Promptformel 174 Prompt Geschichtung 182 Prompt kürzen 167 RAW-Modus 180 Style Tuner 192
314 | Index
Vary Region 182 Visual 207 Zugang 172 Midjourney-Discord- Server 173, 184 Midjourney Prompt Generator 138 Midjourney V6 Alpha 173, 195 Minuszeichen 164 Mittelmäßigkeit 74 Mockups 227, 239, 245 Modell 239 Moodboard 307 Moodboards 104, 106 Motion Brush 267 Motiv Platzierung 61 Multimodal 307 Multimodale KI 18, 116, 117 Multimodale KI-Modelle 208 Multiprompts 182 Muster Midjourney 184
N Nachhaltigkeit 288 Negatives Denken 66 Negativprompt 155 Midjourney 178 Neuronale Netze 14, 21, 307 Neuronen 21 Non-Fungible Token 307 Nutzung 281 Nutzungsrecht 280
O Online-Übersetzungstools 26 Open Source 119 Opt-Out 279 Output-Layer 14, 307
P Pacdora Mockup Generator 247 Packaging-Design 240 Parameter 157, 174, 307 Listen 157 Optionsliste 194 Ressourcen 157 Permutationen 179 Persona 89 Personenbeschreibung 89 Persönliche Daten 283 Perspektivwechsel 71, 76, 88, 89 Pixelbilder Skalieren 24 Pixeldateien erzeugen 116 vektorisieren 116 Pixelgrafik 172 Text 237 vektorisieren 259 Plugin 308 Pluszeichen 164 Porträt 224 PowerPoint 205 Präsentation 205 Bilder 207 Präsentationen 112 Präsentations hintergründe 184
Problemorientierter Einsatz 102, 110 Produktdesign 184 Produktfotografie 226 Produktverpackung 245 Prognosen 112 Programmiersprachen 122 Programmierung 204 Projektplan 104 Prokrastination 70 Prompt 26, 308 3D 153 Anhaltspunkte 136 Arten 137 Auflösung 159 bei verschiedenen KIModellen 144 Bildlooks 153 Definition 133 Einstellmöglichkeiten 157 Elemente 142 Elemente ausschließen 155 Fachbegriffe 153 Farbe 142 Formel 142 fortgeschritten 153 Fotos 153 für Bildgeneratoren 142 Gewicht 163 Gewichtung 182 Hauptelement 136 Hauptmotiv 142 Ideenfindung 89 Illustrationen 153 im Team 143 Inspiration 164 Interpunktion 164 Komposition 142 Kompositionsregeln 63 Kreativitätstechniken 88 Kunst 153
kürzen 194 kürzen lassen 167 Licht 142 mit Emojis 152 Parameter 157 Perspektivwechsel 89 Probleme 33 Qualität 162 Rechtschreibung 134 Reihenfolge 136 Schritte 136, 143 Seed 159 spielerisch entwickeln 143 Sprache 26, 134 Stil 142 Stimmung 142 Style 163 Textprompt 140 übersetzen 134 Urheberrecht 280 Vereinfachung 35 Versionen 162 Vorbereitung 135 Vorgehen bei der Erstellung 141 Promptbegriffe 153 Prompt-Engineer 308 Promptformel ChatGPT 203 Promptgenerator 138 Promptsammlungen 134 Prompt Tokens 153 Promptvariationen 179 Prompt Weights 182 DreamStudio 252 Prompt-Wörterbuch 153 Proportionen 59 Prototyp 93 Provokationstechnik 76, 88 Prozessorientierter Einsatz 102 Python 20, 122, 308
Q Qualität 162 Quality 157 Querdenken 76, 88
R Rauschen 24 Real-ESRGAN 24, 117 Realitätscheck 66, 69 Recherche 104, 112 Recht 272 Rechtschreibung prüfen 112 Rechtsschutz 277 Remix Modus 181 Retype 237 Runway 21, 23, 25, 117, 123, 263 Bildprompt 146 Funktionen 263
S Sampled Token 153 Sand 169 Sandboxing 69 Schnittstelle 44 Gesten 45 grafisch 44 haptisch 45 Schönheitsfilter 286 Schrift Adobe Firefly 220 entwickeln mit ChatGPT 211 finden 104, 220 generieren 221 mit ChatGPT 212 Midjourney v6 196 suchen 220 Schriftdesign 212
Index | 315
Schriftmischung 220 Schwache KI 19 Sechs Denkhüte 76, 88 Seed 157, 159, 160, 190 DreamStudio 251 finden 160 Seitenverhältnis 157, 158 SEO 308 Serverzeit 128 Settings 180 Shooting 224 Sichtfeld 228 Siri 26, 42 Spracheingabe 40 Spracheingabe-Interface 42 Sprachsteuerung ChatGPT 217 Stability AI 248 Stable Diffusion 117, 169, 248, 256, 264 Bilder verändern 150 Bildprompt 146 Negativprompts 155 Parameter 157 Prompt 142, 249 Standardseitenverhältnis Midjourney 174 Starke KI 19 Starkes Licht 224 Steiner, Gerald 53 Stereotypen 286 Stil 90, 104, 142, 227 Stilreferenz 223 Stimmung 142 Stoffe 184 Stop 157 Storyboard 104 Storytelling 91, 92, 113 Studium 298 Style 157, 163 Style-Code 192 StyleGAN 117
316 | Index
Style-Parameter 183 Style Raw 180 Style Tuner 192 Suchmaschine KI 118 GPT-gestützt 119 Supervised Learning 22, 308 Supervised Training 28 SWOT-Analysen 113 Symbol 244 Symmetrie 62
T Tabelle mit ChatGPT 203 Tapeten 184 Team Prompts entwickeln 143 Technische Voraus setzungen 124 Technologien 117 Textanalyse 112 Texte 104 mit KI generieren 25 Texteffekte 220 Texterstellung 112 Text im Bild 237 Textprompt 140 für Bildgeneratoren 142 für Textgeneratoren 140 mit Bildprompt kombinieren 148 mit KI erstellen 140 Textstil 140 Text to Image 142 Text to Text 140 Texturen 184 Text zu Bild 218, 222 Text-zu-Vektorgrafik 241 Text zu Video 265 To-do-Listen 104
Token 153, 178, 308 Limit 153 Tool 308 Toolauswahl 71, 116 Art des Modells 116 Topaz Video AI 269 Torrance Tests of Creative Thinking 55 Trainingsbilder 123 Trainingsdaten 272, 275, 277 Herkunft 125 Transformer-based architecture 28 Transparenz 284 Trends 112 Trennstriche 164 Turing-Test 308
U Übersetzung 112 U-Buttons 175 UI 308 Unsupervised Learning 21, 308 Untertitel 269 Upscaling 157, 159, 175, 177, 260, 265, 308 Urheberrecht 273 Prompt 280 Trainingsdaten 275 User Interface 44, 124 UX 308
V Value 164 Varianten 146, 175 Vary Region 176, 181 Vary Strong 176 Vary Subtle 176
Vectorizer.AI 259 VEED.IO 269 Vektordateien erzeugen 116 Vektorgrafik 236 färben 218 Vektorisieren 146, 259 Verbraucherverhalten 113 Verschlussgeschwindigkeit 228 Versionen 157 Video 263 erzeugen 116 Stimmen 269 über Bildprompt erzeugen 266 über Frame-Inter polation erstellen 264 übersetzen 269
über Text erstellen 265 Video-Tools 269 Video to Video 264 Visualisieren 71 Visualisierung 104 VR 43, 45, 308
Definition 15 Wettbewerber 112 Workflow Phasen 103 reflektieren 104
Z
W Walt-DisneyMethode 76, 88 Was-wäre-wenn- Technik 76, 88 Watzlawick, Paul 66 Webseitenhintergründe 184 Website durchsuchen 112 erstellen 209 Weight 157, 163 Werkzeug
Zahlenwert 164 Zeitplan 104 Zielgruppe 89 Zielgruppenanalyse 104 Zielgruppen beschreibung 112 Zoom Out 64 Zufallsprinzip 76, 88 Zukunft 302 Zusammenfassung 104, 112
Quellenverzeichnis zum Download Auf der Website zum Buch habe ich Ihnen ein umfangreiches Quellenverzeichnis zum Download bereitgestellt. Scannen Sie einfach den QR-Code, oder gehen Sie auf rheinwerk-verlag.de/5793. Im Kasten unter »Materialien« finden Sie die PDF-Datei.
Index | 317
Über die Autorin Die Kreativdirektorin M.A. Jenny Habermehl ist selbstständige Grafikdesignerin, Fotografin und Dozentin und bietet Erfolgstrainings für andere Kreative an. Seit ihrer Masterarbeit hat sie sich intensiv mit den Themen Design, Kreativität und Künstliche Intelligenz beschäftigt und ist seitdem fasziniert von den Möglichkeiten. Sie möchte besonders Designer*innen mit Büchern, Workshops und Vorträgen den Einstieg in das Thema erleichtern sowie über Chancen, aber auch Risiken aufklären. Unter www.ki-und-design.de findet sich alles über ihre Arbeit rund um das Thema KI & Design.
Rechtliche Hinweise Das vorliegende Werk ist in all seinen Teilen urheberrechtlich geschützt. Weitere Hinweise dazu finden Sie in den Allgemeinen Geschäftsbedingungen des Anbieters, bei dem Sie das Werk erworben haben. Die automatisierte Analyse des Werkes, um daraus Informationen insbesondere über Muster, Trends und Korrelationen gemäß § 44b UrhG (»Text und Data Mining«) zu gewinnen, ist untersagt.
Markenschutz Die in diesem Werk wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. können auch ohne besondere Kennzeichnung Marken sein und als solche den gesetzlichen Bestimmungen unterliegen.
Haftungsausschluss Ungeachtet der Sorgfalt, die auf die Erstellung von Text, Abbildungen und Programmen verwendet wurde, können weder Verlag noch Autor*innen, Heraus geber*innen, Übersetzer*innen oder Anbieter für mögliche Fehler und deren Folgen eine juristische Verantwortung oder irgendeine Haftung übernehmen.