Bilder müssen den Betrachter überzeugen, damit ein Storytelling funktioniert. Aber wie “echt” generierte Photos dafür aussehen sollten – darüber gehen die Meinungen auseinander.
Innerhalb eines unglaublich kurzen Zeitraums haben die Text-to-Image KIs bei photo-ähnlichen Motiven ein Qualitätsniveau erreicht, das an professionelle Stock-Images herankommt. Oder sie sogar übertrifft – je nachdem, welche Kriterien man anlegt.
Hohe Qualität ist nicht unbedingt gleichbedeutend mit “natürlich”. Gut für die Story – und generell für die Kommunikation von Inhalten – sind in den meisten Fällen inszenierte Bilder.
Dennoch achten wir bei photo-ähnlichen Bildern aus der KI zur Zeit häufig auf Natürlichkeit. Alle Wettbewerber arbeiten kräftig an diesem Faktor. Und wir sehen wie immer nur eine Momentaufnahme dieser Entwicklung.
Bei Midjourney und bei Flux fällt auf, dass die Natürlichkeit von generierten Personen deutlich reduziert ist, wenn man komplizierte Prompts mit vielen Tokens (“Anweisungen”) verwendet. Und vor allem dann, wenn Presets für Styles oder Characters ins Spiel kommen.
Was macht Flux anders als Midjourney? Ich gehe hier nicht auf die Technik ein, sondern beschreibe wieder kurz, wie Anwender sich einen Character Preset (ein “Personen-Modell”) erstellen können, am Beispiel der Plattform Freepik. Über die Erstellung von Styles habe ich bereits berichtet.
Während man bei Midjourney mit einem einzelnen Referenzbild bereits sehr konsistente Characters generieren kann, erwarten die “LoRA”-Modelle, die bei Flux zum Einsatz kommen, in der Regel mindestens 10 Bilder. Und die habe ich mit MJ generiert.
Das weitere seht ihr im Slider.
Wie bewertet ihr die Qualität der Bildbeispiele im Slider, insbesondere die Konsistenz? Mich interessiert auch: wie geht ihr für euer Storytelling mit Characters zurzeit um?
#powerpoint #copilot #powerpointki #flux