Language

Retrieval Augmented Generation (RAG)

RAG (Retrieval Augmented Generation) kombiniert ein Sprachmodell mit Retrieval (Abruf relevanter Inhalte). Statt ausschließlich auf Trainingswissen zu setzen, holt das System zur Laufzeit passende Dokumentpassagen aus einer Wissensquelle (z. B. interne Dokus, Tickets, PDFs, Webseiten oder Datenbankartikel) und bindet sie als Kontext in den Prompt ein. Ergebnis: aktuellere und nachvollziehbarere Antworten – sofern Pipeline, Datenqualität und Sicherheitsregeln stimmen.

Kurzregel RAG ist ein Daten- und Qualitätsproblem, nicht nur ein Modellproblem. Gute Antworten entstehen durch gute Quellen, gutes Chunking/Retrieval, saubere Policies – und messbare Evaluation.

Inhalt

Architektur (End-to-End)
Ingestion & Datenpipeline
Chunking-Strategien (mit Overlap)
Embeddings & semantische Suche
Retriever: Filter, Hybrid, Query Expansion
Re-Ranking (Cross-Encoder)
Prompt-Design & Kontextformat
Evaluation (Golden Set, Metriken)
Kosten, Latenz & Skalierung
Sicherheit (Prompt Injection, ACL, Policy)
Best Practices & typische Fehler
FAQ

Architektur (End-to-End)

Eine robuste RAG-Architektur besteht aus zwei Hauptpfaden: Ingestion (Dokumente verarbeiten) und Serving (User-Frage beantworten). Ein praxisnahes Standardbild:

Ingestion: Quelle → Parsing/Normalisierung → Chunking → Embeddings → Index/Vektor-DB (+ Metadaten) Serving: User Query → Query-Embedding → Retrieval (Top-K + Filter) → Re-Ranking (optional) → Kontext-Builder → Prompt Template → LLM → Antwort (+ ggf. Zitate/Belege)

Der entscheidende Punkt: RAG ist keine „einzige Funktion“, sondern eine Pipeline. Jeder Schritt kann Qualität gewinnen oder verlieren – und jeder Schritt muss sicher sein.

Ingestion & Datenpipeline

Ingestion bedeutet: Inhalte aus Quellen (Confluence, Git, PDFs, HTML, Tickets) werden in ein einheitliches, suchbares Format überführt. Qualität hängt hier stark von Parsing und Normalisierung ab:

Parsing: Struktur erhalten (Überschriften, Listen, Codeblöcke; Tabellen wenn möglich).
Normalisierung: Boilerplate entfernen, Duplikate zusammenführen, leere Bereiche streichen.
Metadaten: Quelle, Datum, Produkt, Version, Dokumenttyp, Zugriffsrechte.
Versionierung: Aktualisierungen nachvollziehbar; alte Versionen ggf. archivieren.

Chunking-Strategien (mit Overlap)

Chunking teilt Dokumente in Passagen. Zu kleine Chunks verlieren Kontext, zu große Chunks verwässern Relevanz und erhöhen Tokenkosten. Bewährte Strategien:

Heading-basiert: Abschnitte nach H1/H2/H3; Listen/Codeblöcke zusammenhalten.
Token-basiert: z. B. 300–900 Tokens pro Chunk (Domäne entscheidet).
Overlap: 10–20% Überlappung für stabile Übergänge.
Semantisch: Sätze/Absätze so gruppieren, dass Aussagen vollständig bleiben.

Embeddings & semantische Suche

Embeddings transformieren Text in Vektoren, sodass semantische Ähnlichkeit messbar wird. Wichtige Aspekte:

Domänenpassung: Fachbegriffe, Abkürzungen, Produktnamen.
Mehrsprachigkeit: Deutsch/Englisch gemischt? Dann Embeddings entsprechend wählen.
Stabilität: Modellwechsel beeinflusst den Index → Reindexing/Backtesting einplanen.

Retriever: Filter, Hybrid, Query Expansion

Retrieval ist nicht nur „Top-K Vektorsuche“. Gute Systeme kombinieren:

Metadaten-Filter: Produkt=…, Version=…, Mandant=…, ACL=…
Hybrid Search: Vektor + BM25 → besser bei exakten Begriffen/IDs.
Query Expansion: Synonyme/Schreibvarianten (kontrolliert).
Top-K: lieber moderat + Re-Ranking, statt riesig (Tokenkosten steigen stark).

Re-Ranking (Cross-Encoder)

Re-Ranking bewertet Kandidatenpassagen nochmals genauer. Typisch: Retriever holt Top-50, Re-Ranker liefert Top-5/Top-10 für den Prompt. Das steigert Präzision – besonders bei ähnlichen Dokumenten oder „nahen“ Themen.

Prompt-Design & Kontextformat

Strikte Rollen-Trennung: Systemregeln > Userfrage > Context.
Belegpflicht: „Nur aus Kontext antworten; sonst 'nicht im Kontext'“.
Output-Format festlegen: Schritte, Bulletpoints, Quellenangaben.

[DOC 1 | Titel | Datum | URL] ... Passage ... [DOC 2 | ...] ... Passage ... Regel: Nur mit diesen Passagen antworten. Wenn nicht enthalten: 'nicht im Kontext'.

Evaluation (Golden Set, Metriken)

Recall@K: kommt die richtige Passage in Top-K vor?
Faithfulness: stimmt die Antwort mit Quellen überein?
Helpfulness: ist sie vollständig und umsetzbar?
Latency/Cost: P95-Latenz, Tokens pro Anfrage.

Kosten, Latenz & Skalierung

Kontext kompakt halten: nur relevante Passagen, kein Boilerplate.
Top-K reduzieren + Re-Ranking gezielt.
Caching: Query→DocIDs, Embeddings, Antworten (wo sinnvoll).
Inkrementelle Aktualisierungen statt Voll-Reindex.

Sicherheit (Prompt Injection, ACL, Policy)

Prompt Injection: Kontext ist untrusted – Regeln dürfen nicht aus Dokumenten kommen.
ACL: Retrieval muss Rechte erzwingen, sonst Datenleak über Kontext.
Policy: Tools/Actions nur über Allowlist, nicht durch Kontext triggern lassen.
Redaction: Secrets/PII ggf. maskieren vor Index oder vor Prompt.
Audit: DocIDs/Versionen loggen (nicht sensitive Inhalte).

Best Practices & typische Fehler

Best Practice	Warum	Typischer Fehler
Metadaten-Filter + ACL	verhindert Leaks	ein Index für alles
Chunking nach Struktur	bessere Passagen	Split alle N Zeichen
Re-Ranking	höhere Präzision	zu viel Kontext
Golden Set Tests	messbare Qualität	nur Bauchgefühl
Kontext-Policy	Injection-Resistenz	Dokumente steuern das Modell

FAQ

RAG oder Fine-Tuning?

RAG für dynamische Daten und Belege. Fine-Tuning für Stil, Format und Spezialfähigkeiten. Oft ist die Kombination ideal.

Warum halluziniert RAG trotzdem?

Meist wegen falschem Retrieval, zu viel irrelevanter Kontext oder fehlender Belegpflicht. Lösung: Retrieval/Re-Ranking verbessern, Prompt-Regeln, Evaluation.

Welche Vektordatenbank ist am besten?

Wichtiger als der Anbieter sind Metadaten/ACL, Latenz, Skalierung, Betrieb und ein sauberes Datenmodell.

Hinweis: Für produktive RAG-Systeme sind Governance (Dokumentenqualität), Security (ACL/Injection) und Evaluation (Golden Set) entscheidend.