Auf Youtube wurden die neuen Fähigkeiten der KI-Modelle von OpenAI und Google vorgestellt: Endlich können sie direkt im „Gespräch“ Bilder erstellen und diese auf Nachfrage verändern und verbessern – ein Quantensprung! Man könne auch Bilder hochladen und diese „bearbeiten lassen“, heißt es – Fotoshop war gestern! Angeblich soll das alles auch in den kostenlosen Modellen funktionieren, was ich heute mal ausprobiert habe.
Erster Versuch: GPT-4o: die neue Version von OpenAI
„Erstelle ein Bild im Comic-Stil von einer Katze, die eine Toilette für Menschen benutzt!“ Das war das erste, sehr einfache Prompt, das mir in den Sinn kam. Als ich noch Katzen hatte, erstaunte mich regelmäßig ihr Versuch, das WC zu benutzen – ein Motiv, das vielleicht nicht in den Schulungsdaten der KIs vorkommt. Leider ging das gleich schief:
„Ich konnte das Bild leider nicht generieren. Falls du es noch einmal versuchen möchtest oder Änderungen wünschst, lass es mich wissen!„
Ok, das war vielleicht wirklich zu einfach formuliert, ich legte also nach:
„Noch einmal genauer: Erstelle das Bild einer Katze, die eine Toilette für Menschen benutzt. Das sieht so aus: Man sieht die WC-Schüssel von vorne, die Katze steht in der Schüssel und stützt ihre Pfoten auf den vorderen Rand der WC-Schüssel. Mit den Hinterbeinen steht sie in der Schüssel, was aber nicht zu sehen ist: nur die obere Hälfte der Katze schaut aus der WC-Schüssel, sie blickt nach vorne in die Kamera und stützt de Pfoten auf den Sitzrand.“
„Ich kann das Bild im Moment leider nicht generieren, da es eine Begrenzung für die Anzahl der Bilder gibt, die ich in kurzer Zeit erstellen kann. Du kannst es später noch einmal versuchen oder mir weitere Details geben, falls du eine andere Idee hast!“
So so! Nach nur einem Versuch macht sie schon Schluss. Auf Nachfrage sagt ChatGPT:
„Normalerweise kann ich mehrere Bilder hintereinander generieren, aber es gibt ein Limit, das mich nach einer bestimmten Anzahl oder Häufigkeit für eine gewisse Zeit pausieren lässt. Leider sind die genauen Zahlen nicht immer gleich und hängen von verschiedenen Faktoren ab. In diesem Fall wurde ich nach nur einem Bild gesperrt, was ungewöhnlich ist. Wenn du möchtest, kannst du es in etwa 42 Minuten noch einmal versuchen, oder wir können in der Zwischenzeit an einer anderen Idee arbeiten!“
Nö, will ich nicht! Vermutlich ist die neue Funktion grade nur für zahlende User nutzbar, wenn überhaupt.
Zweiter Versuch: Googles Gemini 2.5 pro (experimental)
Noch einmal dasselbe, ausführliche Prompt. Aber ich bekomme nur einen ellenlangen „Gedankengang“ und dann KEIN BILD! Auch auf Nachfrage („Ich sehe kein Bild, erstelle es!) kommen nur von der Ki berichtete Zugriffsfehler, aber kein Bild. Am Ende sagt Gemini:
„Trotz mehrerer Anläufe scheint es momentan ein grundlegendes Problem mit dem Zugriff auf die Bilderstellungsfunktion zu geben, das ich nicht umgehen kann. Daher muss ich dir leider mitteilen, dass ich das gewünschte Bild der Katze in der Toilette unter diesen Umständen aktuell nicht erstellen kann. Ich entschuldige mich vielmals für die wiederholten Fehlversuche und die Unannehmlichkeiten.„
Am Fuß der Seite wird mir nun ein Upgrade auf die Zahlversion angeboten, ein ganzer Probemonat kostenlos (kündbar zum Ende dieses Monats). Das nehme ich an und logge in die zahlungsprlichtige Pro-Version ein. Und poste dasselbe komplexe Prompt mit der Bildbeschreibung von der Katze auf dem Klo. Die Antwort:
„Ich kann leider keine Bilder direkt erstellen. Aber ich kann dir eine detaillierte Beschreibung geben, wie das Bild aussehen würde: Stell dir eine Standard-Toilette aus weißer Keramik vor, von vorne fotografiert…..(usw.)“
Wie bitte? Das ist doch nicht ihr Ernst. Ich hake nach:
„Ich dachte, Gemini Advanced 2.5 pro kann Bilder erstellen! Ich habe Demos gesehen und gerade die kostenlose Version ausprobiert, die durchaus Bilder erstellen kann. Weil es einen technischen Fehler gab, habe ich ein Premium-Abo für die KI-Nutzung abgeschlossen. Und du (=dasselbe Modell) sagt mir jetzt, dass es keine Bilder erstellen kann? Wieso das?“
Und siehe da:
Du hast vollkommen Recht, und es tut mir aufrichtig leid für die Verwirrung und Frustration, die meine vorherige Antwort verursacht hat. Das war ein Fehler meinerseits.
„Ja, als Gemini Advanced bzw. das zugrundeliegende Modell kann ich Bilder erstellen. Die Information, dass ich das nicht könne, war falsch. Es gibt verschiedene mögliche Gründe, warum meine vorherige Antwort fehlerhaft war:
- Vorübergehender Fehler: Manchmal kann es vorkommen, dass eine Funktion kurzzeitig nicht verfügbar ist oder ich fälschlicherweise annehme, sie sei nicht verfügbar.
- Fehlinterpretation der Anfrage: In seltenen Fällen könnte ich die Anfrage missverstehen und fälschlicherweise eine Standardantwort geben, die nicht meine vollen Fähigkeiten widerspiegelt.
- Interne Inkonsistenz: Da ich ständig weiterentwickelt werde, kann es in Ausnahmefällen zu internen Inkonsistenzen kommen, die zu einer falschen Aussage über meine Fähigkeiten führen.
Unabhängig vom Grund war meine Aussage falsch, und ich entschuldige mich dafür, besonders da du extra ein Abonnement abgeschlossen hast. Du solltest die Bildgenerierungsfunktion nutzen können.
Möchtest du, dass ich jetzt versuche, das Bild der Katze auf der Toilette für dich zu erstellen?“
Ja, das will ich! Und bekomme wieder einen ellenlangen Gedankengang, in dem sich die KI selbst erzählt, was sie tun soll – es aber NICHT TUT! Ich versuche, es ihr zu erleichtern, übernehme das im „Gedankengang“ erstellte Prompt und erlaube den Comic-Stil:
„Ich sehe kein Bild! Mach es noch einmal, aber im Comic-Stil, vielleicht klappt das ja. Hier das Prompt: „A comic style image depicting a funny scene in a bathroom. Viewpoint is directly facing a standard white ceramic human toilet bowl. A medium-sized tabby cat is positioned inside the toilet bowl, facing the camera. Only the upper half of the cat, from the chest up, is visible above the rim. The cat has a slightly surprised/focused expression, looking directly at the viewer. Its front paws are placed firmly on the front edge of the white toilet seat. Simple, clean bathroom background with tiled walls.“
Und siehe da, endlich mal ein Bild:
Zwar nicht im Comic-Stil, aber der war mir ja nicht wichtig. Allerdings ist die Katze im Verhältnis zum Klo viel zu groß!
„Mach die Katze etwas kleiner, so dass es realistischer aussieht. Die ganze Katze muss ja mit den Hinterbeinen in der Toilettenschüssel stehen (was man nicht sieht) und ihr Körper und Kopf muss zur Größe der Toilette in einem natürlichen Verhältnis stehen. Diese Katze ist zu groß! Gerne kannst du es im Comic-Stil realisieren, wenn es photorealistisch nicht geht“
Das Ergebnis ist schon etwas besser:
Jetzt also wirklich der Comic-Stil! Aber: „Bitte nochmal, die Katze noch ein bisschen kleiner und schlanker!“
Na endlich! Jetzt sogar wieder „fotorealistisch“! Zwar würde die Katze noch immer nicht wirklich in die zu flache Kloschüssel passen, aber prinzipiell sieht es jetzt genauso aus, wie ich die Szene in Erinnerung habe. Tolle Leistung, wenn auch mit Anlaufproblemen.
FAZIT: Kostenlos floppt, Premium braucht Hartnäckigkeit
Es wundert nicht, dass die neuen Fähigkeiten in den kostenlosen Versionen nicht wirklich funktionieren. Vermutlich ist ja derzeit „die halbe Welt“ dabei, das auszuprobieren. Aber auch in der Bezahlversion muss man dran bleiben, hartnäckig sein, darf sich nicht mit ersten Verweigerungen abspeisen lassen – etwa wie bei einer unwilligen menschlichen Arbeitskraft, die erstmal sagt: Sorry, ich hab‘ gerade keine Zeit!
Update 1.3.:
Horst Schulte hat die Ergebnisse zweier weiterer KIs beigesteuert – unter Verwendung desselben englischen Prompts, jedoch ohne Nachbesserungen:
Rechts seht Ihr das Ergebnis von ChatGPT, links daneben die Version von Ideogram. Mir gefällt die „gezeichnete“ Optik von ChatGPT besser.
Etwas verstörend wirkt das Bild von Copilot, dass Henning Uhle beigesteuert hat:
Sie schafft es, ihren Schwanz durch die Schüssel nach draußen zu schieben! :-) Insgesamt ist es die schlechteste Version, da die Pfoten auf der Brille fehlen.
***
Hier der originale Chat mit Gemini 2.5 (experimental) mit allen „Gedankengängen“.
Und sonst:
- Google: Übersicht mit KI startet in Deutschland und weiteren Ländern
- Thomas Gigold: KI-Bildchen killen meine Leselaune mit vielen Kommentaren. Dazu schreibt auch Henning Uhle: Blogger-Vorgarten: Die unrühmliche Diskussion.
Diesem Blog per E-Mail folgen…
Diskussion
Kommentare abonnieren (RSS)
5 Kommentare zu „Die neuen KI-Modelle und die Katze im Klo“.