Was sind Tokens?

Tokens sind die kleineren Textbausteine, mit denen ein Sprachmodell arbeitet. Sie sind die „Währung“ für Kontext-Limits und oft auch für Kosten. Wenn du Tokens verstehst, verstehst du auch, warum ein Modell manchmal „vergisst“, warum lange Prompts teuer werden und wie man Chatbots sauber und effizient baut.

Ziel: Verständlich + praxistauglich Fokus: Tokenisierung, Kontextfenster, Kosten Stand: 09.02.2026
Merksatz: Ein LLM sieht keinen „Text“, sondern eine Token-Sequenz. Alles (Prompt, Verlauf, Antwort) ist nur eine Token-Kette.
Inhalt (per Klick springen)

1) Grundidee: Token als Baustein

Ein Token ist eine Verarbeitungseinheit. Es kann ein ganzes Wort sein, ein Wortteil, ein Satzzeichen oder sogar ein einzelnes Zeichen. Beim Schreiben einer Antwort wählt das Modell Token für Token das nächste passende Token aus.

Für Laien

Stell dir vor, du schneidest Text in kleine Puzzle-Teile. Das Modell arbeitet nicht mit dem ganzen Satz auf einmal, sondern setzt die Puzzleteile nacheinander zusammen.

Für Profis

Das Modell berechnet typischerweise p(token_t | token_1..token_(t-1)). Tokenisierung beeinflusst Sequenzlänge, Rechenaufwand (O(n²) Attention) und Kosten.

2) Tokenisierung: warum Wörter zerlegt werden

Damit ein Modell alle möglichen Wörter und Schreibweisen abdecken kann, zerlegt ein Tokenizer Text oft in häufige Teile. Ein verbreiteter Ansatz ist BPE (Byte Pair Encoding) oder ähnliche Verfahren.

Warum nicht einfach „Wörter“? Weil es unendlich viele Varianten gibt (Komposita, Tippfehler, Namen, Fachbegriffe). Wortteile sind flexibler und sparen Vokabulargröße.

BPE grob erklärt

  1. Starte mit sehr kleinen Einheiten (z. B. Zeichen/Bytes).
  2. Finde häufige Paarungen und „merge“ sie zu größeren Einheiten.
  3. Wiederhole das, bis ein brauchbares Token-Vokabular entsteht.

3) Kontextfenster: Limits & warum „Vergessen“ passiert

Das Kontextfenster ist die maximale Token-Menge, die das Modell gleichzeitig berücksichtigen kann. Dazu zählen: System-/Rollenanweisungen, Prompt, Chatverlauf, nachgeladene Dokumente (RAG) und die Antwort.

Teil Beispiele Warum relevant?
Instruktionen „Antworte kurz“, „Sei präzise“, Policies Steuert Verhalten & Format – kostet aber Tokens
Verlauf Vorherige Nachrichten Gibt Kontinuität – kann aber Kontext „verstopfen“
Wissen Docs, FAQ, Tickets (RAG) Erhöht Faktentreue – kostet Tokens, muss kompakt sein
Antwort Die Ausgabe Auch Antwort-Tokens zählen gegen das Limit
Typischer Effekt: Wenn das Fenster voll wird, wird älterer Verlauf gekürzt oder wichtige Details fehlen – das wirkt wie „Vergessen“.

4) Kostenmodell: warum Tokens Geld kosten

Viele Anbieter rechnen nach Tokens ab, weil Tokens ein guter Proxy für Rechenaufwand sind: Mehr Tokens bedeuten mehr Arbeit im Modell (mehr Kontext, mehr Schritte beim Generieren).

Was kostet Tokens?

  • Input-Tokens: alles, was du sendest (Prompt + Kontext)
  • Output-Tokens: alles, was das Modell zurückgibt

Warum Output oft „teurer wirkt“

Output wächst schnell: Eine lange Antwort kann 2–10× so viele Tokens haben wie die Frage. Deshalb sind klare Antwortformate und Limits extrem hilfreich.

Gesamt-Tokens = Input (System+Prompt+Verlauf+Docs) + Output (Antwort) Wenn du den Verlauf halbierst oder Docs kürzt: → weniger Input-Tokens → häufig auch weniger Output (weil Antwort fokussierter wird)

5) Beispiele & typische Missverständnisse

„Tokens sind Wörter“

Falsch. Ein deutsches Kompositum (sehr lange zusammengesetzte Wörter) kann in viele Tokens zerfallen. Das erklärt, warum Deutsch manchmal mehr Tokens als Englisch braucht.

„Ich habe 50 Zeilen Prompt, aber es ist doch nur Text“

Für das Modell ist es eine Token-Sequenz. 50 Zeilen können je nach Inhalt sehr viele Tokens sein – besonders mit Logs, JSON, Code.

„Mehr Kontext = immer besser“

Nicht automatisch. Zu viel Kontext kann wichtige Signale verwässern. Besser: weniger, aber relevanter Kontext.

„Das Modell muss das doch wissen“

Ein LLM ist keine Live-Datenbank. Ohne externe Quellen kann es Details erfinden (Halluzination). Tokens lösen das nicht – aber RAG hilft.

6) Prompt-Optimierung: weniger Tokens, bessere Antworten

Token-Sparen heißt nicht „Information weglassen“, sondern „Ballast entfernen“ und Struktur hinzufügen. Ziel ist: relevant, kurz, eindeutig.

Praktische Tricks

  • Verlauf zusammenfassen statt komplett mitzusenden
  • Klare Rollen/Formatvorgaben (aber kurz)
  • Nur die notwendigen Daten als Kontext
  • Output-Format definieren (z. B. 5 Bulletpoints)

Prompt-Beispiel (kompakt)

Rolle: Support Ziel: Diagnose + Lösung in 5 Schritten Kontext: Fehler 0x1234 beim Start Format: Ursache, Schritte, Alternative
Faustregel: Wenn du den Prompt nicht in 10 Sekunden erklären kannst, ist er oft zu lang oder unklar.

7) RAG & Token-Sparen bei Wissen

Bei Wissensfragen ist „alles in den Prompt kopieren“ teuer. RAG lädt nur relevante Dokumentstellen nach. Dadurch sinken Tokens und die Antworten werden meist faktischer.

RAG-Token-Strategie (einfach)

  1. Dokumente in kleine, sinnvolle Abschnitte aufteilen.
  2. Nur die Top-relevanten Abschnitte in den Prompt geben (nicht 20 Seiten).
  3. Antwortformat: „nur mit Kontext“ (wenn du Faktentreue brauchst).

8) Checklisten (Produkt & Entwicklung)

Checkliste: Chatbot im Produkt

  • Kontextbudget festlegen (z. B. max X Tokens Verlauf)
  • Antwortlimit (max Tokens) setzen
  • RAG statt Copy/Paste großer Dokumente
  • Fallback: „Ich weiß es nicht“ + nächste Schritte
  • Monitoring: Tokenverbrauch & teure Prompts finden

Checkliste: Entwickler-Alltag

  • Logs/Stacktraces kürzen (nur relevante Ausschnitte)
  • JSON kompakt halten (nur Felder, die gebraucht werden)
  • Begriffe definieren (kurzes Glossar)
  • „One question at a time“: erst klären, dann lösen
  • Antworten validieren (Schema/Tests) statt „blind glauben“

9) FAQ

Sind Tokens gleich Wörter?

Nein. Tokens sind oft Wortteile. Ein Wort kann aus mehreren Tokens bestehen.

Warum ist Deutsch manchmal „teurer“?

Weil Komposita und bestimmte Wortformen öfter in mehrere Tokens zerlegt werden. Das hängt vom Tokenizer-Vokabular ab.

Warum „vergisst“ ein Modell frühere Infos?

Weil das Kontextfenster begrenzt ist. Wenn zu viel Text im Verlauf steckt, wird gekürzt oder Wichtiges geht unter.

Kann ich Tokens exakt zählen?

Ja, aber die genaue Zahl hängt vom Tokenizer ab. Für exakte Werte brauchst du den Tokenizer des jeweiligen Modells.

Was bringt RAG im Token-Kontext?

RAG liefert nur passende Textstellen statt kompletter Dokumente. Das spart Tokens und verbessert die Nachvollziehbarkeit.

Hinweis: Diese Seite ist eine technische Orientierung. Je nach Modell/Tokenizer können Token-Grenzen und Zählweise variieren.