Tokens sind die kleineren Textbausteine, mit denen ein Sprachmodell arbeitet. Sie sind die „Währung“ für Kontext-Limits und oft auch für Kosten. Wenn du Tokens verstehst, verstehst du auch, warum ein Modell manchmal „vergisst“, warum lange Prompts teuer werden und wie man Chatbots sauber und effizient baut.
Ein Token ist eine Verarbeitungseinheit. Es kann ein ganzes Wort sein, ein Wortteil, ein Satzzeichen oder sogar ein einzelnes Zeichen. Beim Schreiben einer Antwort wählt das Modell Token für Token das nächste passende Token aus.
Stell dir vor, du schneidest Text in kleine Puzzle-Teile. Das Modell arbeitet nicht mit dem ganzen Satz auf einmal, sondern setzt die Puzzleteile nacheinander zusammen.
Das Modell berechnet typischerweise p(token_t | token_1..token_(t-1)). Tokenisierung beeinflusst Sequenzlänge, Rechenaufwand (O(n²) Attention) und Kosten.
Damit ein Modell alle möglichen Wörter und Schreibweisen abdecken kann, zerlegt ein Tokenizer Text oft in häufige Teile. Ein verbreiteter Ansatz ist BPE (Byte Pair Encoding) oder ähnliche Verfahren.
Das Kontextfenster ist die maximale Token-Menge, die das Modell gleichzeitig berücksichtigen kann. Dazu zählen: System-/Rollenanweisungen, Prompt, Chatverlauf, nachgeladene Dokumente (RAG) und die Antwort.
| Teil | Beispiele | Warum relevant? |
|---|---|---|
| Instruktionen | „Antworte kurz“, „Sei präzise“, Policies | Steuert Verhalten & Format – kostet aber Tokens |
| Verlauf | Vorherige Nachrichten | Gibt Kontinuität – kann aber Kontext „verstopfen“ |
| Wissen | Docs, FAQ, Tickets (RAG) | Erhöht Faktentreue – kostet Tokens, muss kompakt sein |
| Antwort | Die Ausgabe | Auch Antwort-Tokens zählen gegen das Limit |
Viele Anbieter rechnen nach Tokens ab, weil Tokens ein guter Proxy für Rechenaufwand sind: Mehr Tokens bedeuten mehr Arbeit im Modell (mehr Kontext, mehr Schritte beim Generieren).
Output wächst schnell: Eine lange Antwort kann 2–10× so viele Tokens haben wie die Frage. Deshalb sind klare Antwortformate und Limits extrem hilfreich.
Gesamt-Tokens = Input (System+Prompt+Verlauf+Docs) + Output (Antwort) Wenn du den Verlauf halbierst oder Docs kürzt: → weniger Input-Tokens → häufig auch weniger Output (weil Antwort fokussierter wird)
Falsch. Ein deutsches Kompositum (sehr lange zusammengesetzte Wörter) kann in viele Tokens zerfallen. Das erklärt, warum Deutsch manchmal mehr Tokens als Englisch braucht.
Für das Modell ist es eine Token-Sequenz. 50 Zeilen können je nach Inhalt sehr viele Tokens sein – besonders mit Logs, JSON, Code.
Nicht automatisch. Zu viel Kontext kann wichtige Signale verwässern. Besser: weniger, aber relevanter Kontext.
Ein LLM ist keine Live-Datenbank. Ohne externe Quellen kann es Details erfinden (Halluzination). Tokens lösen das nicht – aber RAG hilft.
Token-Sparen heißt nicht „Information weglassen“, sondern „Ballast entfernen“ und Struktur hinzufügen. Ziel ist: relevant, kurz, eindeutig.
Rolle: Support Ziel: Diagnose + Lösung in 5 Schritten Kontext: Fehler 0x1234 beim Start Format: Ursache, Schritte, AlternativeBei Wissensfragen ist „alles in den Prompt kopieren“ teuer. RAG lädt nur relevante Dokumentstellen nach. Dadurch sinken Tokens und die Antworten werden meist faktischer.
Nein. Tokens sind oft Wortteile. Ein Wort kann aus mehreren Tokens bestehen.
Weil Komposita und bestimmte Wortformen öfter in mehrere Tokens zerlegt werden. Das hängt vom Tokenizer-Vokabular ab.
Weil das Kontextfenster begrenzt ist. Wenn zu viel Text im Verlauf steckt, wird gekürzt oder Wichtiges geht unter.
Ja, aber die genaue Zahl hängt vom Tokenizer ab. Für exakte Werte brauchst du den Tokenizer des jeweiligen Modells.
RAG liefert nur passende Textstellen statt kompletter Dokumente. Das spart Tokens und verbessert die Nachvollziehbarkeit.