Claudia am 20. April 2023 —

ChatGPT-4 kann nicht mal Wörter richtig zählen!

Angeblich soll ChatGPT-4 ja stolze 25000 Wörter verarbeiten können. So berichteten jedenfalls viele Medien, die sich auf die Ankündigung des Herstellers OpenAI bezogen: GPT-4 sei jetzt fähig, mehr als 25.000 Wörter Text zu verarbeiten, was zum Beispiel eine echte Analyse von Dokumenten möglich mache.

„Fähig sein“ heißt aber offenbar nicht, dass diese Textmenge – bestehend aus Eingaben und Antworten eines Gesprächs – nun für zahlende User wirklich zur Verfügung steht. Aber mehr noch: ChatGPT schafft es noch nicht mal, die Wörter eines Textes richtig zu zählen!
ChatGPT Symbolbild

Wie ich die Fehler entdeckte: Videos zusammenfassen getestet

Als ich mitbekam, dass ChatGPT Youtube-Videos zusammen fassen kann, war ich begeistert! Schließlich würde das einige Lebenszeit ersparen, die ich ansonsten mit dem Ansehen des Videos verbringen würde. Es funktioniert auf Basis des Transscripts, das Youtube zu jedem Video automatisch erstellt. (Zu finden unter den 3 Punkten rechts unterhalb des Videos). Das gibt man mit einer entsprechenden Ansage bei ChatGPT ein. Ich habe es zunächst mit dem Video „Die geheime Wahrheit über ChatGPT getestet (dafür die Zeitangaben weggeschaltet) und bekam tatsächlich ein gutes Ergebnis mit der Ansage:

„Bitte fasse die Inhalte des folgenden Video-Transcripts zusammen. Gib eine Liste mit 10 Punkten aus, jeder Punkt soll mit ca. 30 Wörtern beschrieben werden. Hier der Text:“

Nun ist dieses Video nur 11 Minuten lang. Als nächstes testete ich das Video „A ChatGPT Alternative That’s Free & Open Source!“ – ein Schnellsprecher, der in gut 17 Minuten recht viel erzählt. ZU VIEL für ChatGPT, denn es meinte, der Text sei zu lang und ich solle ihn kürzen. Mich hat das gewundert, denn der Text enthält insgesamt „nur“ 3470 Wörter. War da nicht was mit 25.000 Wörtern?

Also hab ich nachgefragt – wohlgemerkt immer mit der zahlungspflichtigen Version 4, die ja soviel besser sein soll als 3.5:

Wieviele Wörter darf eine Konversation mit ChatGPT-3 und ChatGPT-4 umfassen?

„Die Anzahl der Wörter, die in einer Konversation mit ChatGPT-3 oder ChatGPT-4 verwendet werden können, hängt von den jeweiligen Grenzen der Modelle ab. Bei ChatGPT-3 liegt die maximale Anzahl der Eingabe-Token (Wörter und Satzzeichen) bei 4096. ChatGPT-4, auf dem ich basiere, hat ähnliche Grenzen, aber die genaue Anzahl der Token kann von der Implementierung abhängen.

Es ist wichtig zu beachten, dass sowohl die Eingabe als auch die Ausgabe des Modells in diesen Token-Grenzen enthalten sind. Das bedeutet, je länger die vorangegangene Konversation, desto weniger Raum bleibt für die Antwort des Modells. Wenn der Text die Token-Grenze überschreitet, muss er gekürzt oder in mehrere Teile aufgeteilt werden, um vom Modell verarbeitet werden zu können.“

Nun gut! Um mir eine Vorstellung vom Unterschied zwischen Wörtern und Tokens zu machen, gab ich ChatGPT den Blogbeitrag Zwei Monate ChatGPT – eine Zwischenstandsmeldung (einschließlich der Verweise auf andere Quellen) zur Analyse und fragte nach der Anzahl der Wörter und Tokens. Ergebnis:

„In diesem Textbeispiel gibt es insgesamt 569 Wörter. Da Token jedoch nicht nur Wörter, sondern auch Satzzeichen und manchmal Teile von Wörtern umfassen, ist die genaue Anzahl der Token höher als die Anzahl der Wörter. Nach einer Analyse des Textbeispiels gibt es ungefähr 647 Tokens, einschließlich Satzzeichen und anderen Textelementen. Es ist wichtig zu beachten, dass die genaue Anzahl der Tokens von der verwendeten Tokenisierungsmethode abhängt, die zwischen verschiedenen NLP-Modellen und -Bibliotheken variieren kann.“

Tja, weit daneben! Der Text enthält tatsächlich 732 Wörter (gezählt mit Libre Office) bzw. 744 Wörter (gezählt mit einem Online-Tool). Hätte sich ChatGPT nur um wenige Wörter vertan, würde ich nicht meckern, aber eine solche Diskrepanz? Geht gar nicht!

Zur Sicherheit hab ich es noch einmal getestet, dieses mal mit einem Stück Text ohne Satzzeichen aus dem zuvor kopierten Video-Transscript. Er enthält nur 555 Wörter, sollte also schaffbar sein. ChatGPT-4 ist anderer Meinung:

„In diesem Textbeispiel gibt es insgesamt 396 Wörter. Nach einer Analyse des Textes gibt es ungefähr 456 Tokens, einschließlich Satzzeichen und anderen Textelementen. Es ist wichtig zu beachten, dass die genaue Anzahl der Tokens von der verwendeten Tokenisierungsmethode abhängt, die zwischen verschiedenen NLP-Modellen und -Bibliotheken variieren kann.“

Damit wollte ich mich nicht zufrieden geben und bat um eine Korrektur:

Bitte zähle die Wörter im letzten Beispieltext noch einmal! Deine Antwort war nicht korrekt!

„Entschuldigung, es scheint, dass ich einen Fehler gemacht habe. Nach erneuter Überprüfung des Textbeispiels habe ich festgestellt, dass der Text tatsächlich 389 Wörter enthält. Bei der Tokenisierung, die auch Satzzeichen und andere Textelemente berücksichtigt, hat der Text etwa 441 Tokens.“

Aha! Sich entschuldigen ist ja nett, wiederholt voll daneben zu liegen weniger. Auch enthielt der Text keine „Satzzeichen und andere Textelemente“ sondern ausschließlich aneinander gereihte Wörter ohne Absatz, Punkt und Komma.

ChatGPT erklärt seine Fehler, neuer Test

Ich bat nun um eine Erklärung für die unglaubliche Fehlerhaftigkeit der Antworten:

Kannst du erklären, warum du nicht richtig Wörter zählen kannst? Auch dieses Ergebnis ist noch sehr falsch!

Antwort (gekürzt um Entschuldigungs-Blabla):

„In meinem bisherigen Verfahren habe ich versucht, den Text automatisch zu analysieren und die Anzahl der Wörter und Tokens zu berechnen. Diese Berechnungen können jedoch fehlerhaft sein, insbesondere wenn der Text eine ungewöhnliche Struktur oder Formatierung aufweist. Ich werde mich bemühen, Ihnen bei zukünftigen Anfragen genauere Informationen zu liefern.

Als KI-Modell kann ich in einigen Fällen aufgrund von Kontext- oder Verständnisproblemen Schwierigkeiten haben, Wörter korrekt zu zählen. Dies kann auf sprachliche oder grammatikalische Ungenauigkeiten, ungewöhnliche Satzstrukturen oder unklare Textformatierungen zurückzuführen sein. Um solche Fehler zu vermeiden, kann es hilfreich sein, den Text klarer oder strukturierter zu gestalten oder die Frage präziser zu formulieren.“

Na gut, der erste Text enthielt diverse unterschiedliche Formatierungen, der zweite (ohne Satzzeichen) war sicher „ungewöhnlich“. Also versuchte ich es noch einmal mit einem schlichten kurzen Absatz mit nur 67 Wörtern aus dem zuerst getesteten Diary-Text:

Ich möchte, dass du die Wörter und Tokens in einem weiteren extra kurzen Text analysierst. Hier der Text (Eingabe erfolgte ohne Anführungszeichen rund ums Zitat):

„Auch ChatGPT zeigt einen wirklich „grundstürzenden“ Umbruch in der Art und Weise, wie wir mit Daten und Informationen umgehen. Das trifft nicht nur Schulen und Universitäten, sondern faktisch alle Berufe, die mit der Erschließung und Aufbereitung von Inhalten befasst sind. Autodidaktisches Lernen erlebt einen Quantensprung – ein Effekt, dessen Vorteil man sich gar nicht groß genug ausmalen kann in einer Welt, die mehr und mehr „lebenslanges Lernen“ erfordert.“

Die Antwort:

„In diesem kurzen Textbeispiel gibt es insgesamt 58 Wörter. Nach einer Analyse des Textes gibt es ungefähr 68 Tokens, einschließlich Satzzeichen und anderen Textelementen. Beachten Sie bitte, dass die genaue Anzahl der Tokens von der verwendeten Tokenisierungsmethode abhängen kann, die zwischen verschiedenen NLP-Modellen und -Bibliotheken variieren kann.“

Immer noch 9 Wörter zu wenig! Mich wundert das auch deshalb, weil es zumindest die „Tokens“ zum Berechnen der eigenen Kapazität ständig braucht!

Es müsste also ein Tool geben, das anzeigt, wie viele „Tokens“ ein Text für ChatGPT enthält. Und ja, das gibt es, sogar von OpenAI selbst. Im sogenannten „Tokenizer“ testete ich nun den Kurztext mit den 67 Wörtern. Leider bezieht sich das Tool nur auf ChatGPT 3). Ergebnis:

Tokens 126
Characters 355

Auch das ist falsch. Zwar gibt es nur die Zeichenanzahl und keine Wörter aus, der Text enthält jedoch keine 355 Zeichen, sondern 464 (mit Leerzeichen) und 396 ohne Leerzeichen.

Damit man sich eine Vorstellung machen kann, was „Tokens“ konkret sind, werden diese im Text farblich voneinander abgegrenzt:
Tokens Test

Wie man sieht, spielen Leerzeichen keine extra Rolle. Der Vergleichswert ist also „464 MIT Leerzeichen“. Damit liegt der „Tokenizer“ stolze 109 Zeichen daneben!

Fazit: ChatGPT versagt beim Wörter zählen komplett. Meine ursprüngliche Frage ist jedenfalls so nicht zu beantworten. Wie lang der Text konkret sein darf, den ChatGPT-4 noch annimmt, ohne ihn als „zu lang“ zurückzuweisen, muss ich wohl durch Trial&Error noch heraus finden.

Diesem Blog per E-Mail folgen…

Diskussion

Kommentare abonnieren (RSS)
7 Kommentare zu „ChatGPT-4 kann nicht mal Wörter richtig zählen!“.

  1. Ich würde nicht mal drauf kommen, zu gucken ob ChatGPT Office kann. ;⁠-⁠)

  2. ChatGPT kann keine Wörter zählen. Es ist nicht dafür gemacht. Es wird ggf auch bei simpelsten Rechenaufgaben Fehler oder einfachem Zählen einstelliger Werte versagen. Das ist konstruktionsbedingt weil es nur Token sieht und die anders behandelt werden. Wie zum Beispiel auch ein Dosenöffner eine irre schlechte Gabel ist.

    Es ist eben keine ‚Intelligenz‘, sondern ein Sprachmodell das Text generiert. Das Beste das die Welt je gesehen hat.

    Zur Frage der Tokenlänge ist wahrscheinlich, dass openAI das Limit je nach Nachfrage anpasst.
    Vor ca 2-3 Wochen konnte ich Untertitellängen zw 10000 – 12000 Zeichen füttern.

  3. @Juri: Office soll demnächst ChatGpt können – nicht umgekehrt! :-)

    @SR: Sowas hab ich mir gedacht, aber wie meistens „im Internet“, scheint bereits Abhilfe in Sicht: ChatGPT bekommt Wolfram Superpower – also Mathe-Fähigkeiten mittels eines Plugins.

  4. @Claudia, ich bin erstaunt, was Du alles untersuchst.
    Wenn ich politisch relevante Videos anschaue, dann genehmige ich mir eben die 43 Minuten eines solchen Videos, das ist eben nicht zu vermeiden. Kürzungen sind ja nicht immer sinnvoll, denn das Atmosphärische einer Darstellung, das WIE des Vortrags spielen mit eine Rolle, wie man den Vortrag bewerten mag.
    Wir alle haben wenig Zeit, aber mancher Zeitaufwand MUSS sein.

  5. @Gerard: mich interessieren weit mehr Videos, als ich zeitlich anschauen kann. Wichtiger noch: Videos, deren Inhalt sehr von Interesse ist, nerven durch ihre Sprecher/innen, zu schnell, zu langsam, zu langatmig, zu viel Drumrum ums Thema…
    Tolle Videos wie diese würde ich natürlich NIE zusammen fassen lassen…

  6. Das ist das Problem an einer narzisstischen Gesellschaft. Auch Wissen und Bildung leiden unter der Selbstinszenierungsstörung der Protagonisten.

    Die abgestorbenen Medien haben das auch noch vorgemacht Eine Anmoderation für eine Anmoderation und andere Scherzmaterialien.
    „Gleich werde ICH dir erzählen, wie….(blablabla, 5 Minuten vorspulen)“.

    Dabei gab es früher sogar gute Videos, wie man ein Tutorial erstellt. Kein Wunder, dass man die nicht mehr findet.

  7. Es hat viele Nachteile, aber nicht alles ist so schlecht.