Retrieval Augmented Generation (RAG)

RAG (Retrieval Augmented Generation) kombiniert ein Sprachmodell mit Retrieval (Abruf relevanter Inhalte). Statt ausschließlich auf Trainingswissen zu setzen, holt das System zur Laufzeit passende Dokumentpassagen aus einer Wissensquelle (z. B. interne Dokus, Tickets, PDFs, Webseiten oder Datenbankartikel) und bindet sie als Kontext in den Prompt ein. Ergebnis: aktuellere und nachvollziehbarere Antworten – sofern Pipeline, Datenqualität und Sicherheitsregeln stimmen.

Kurzregel RAG ist ein Daten- und Qualitätsproblem, nicht nur ein Modellproblem. Gute Antworten entstehen durch gute Quellen, gutes Chunking/Retrieval, saubere Policies – und messbare Evaluation.
Inhalt
  • Architektur (End-to-End)
  • Ingestion & Datenpipeline
  • Chunking-Strategien (mit Overlap)
  • Embeddings & semantische Suche
  • Retriever: Filter, Hybrid, Query Expansion
  • Re-Ranking (Cross-Encoder)
  • Prompt-Design & Kontextformat
  • Evaluation (Golden Set, Metriken)
  • Kosten, Latenz & Skalierung
  • Sicherheit (Prompt Injection, ACL, Policy)
  • Best Practices & typische Fehler
  • FAQ

Architektur (End-to-End)

Eine robuste RAG-Architektur besteht aus zwei Hauptpfaden: Ingestion (Dokumente verarbeiten) und Serving (User-Frage beantworten). Ein praxisnahes Standardbild:

Ingestion: Quelle → Parsing/Normalisierung → Chunking → Embeddings → Index/Vektor-DB (+ Metadaten) Serving: User Query → Query-Embedding → Retrieval (Top-K + Filter) → Re-Ranking (optional) → Kontext-Builder → Prompt Template → LLM → Antwort (+ ggf. Zitate/Belege)

Der entscheidende Punkt: RAG ist keine „einzige Funktion“, sondern eine Pipeline. Jeder Schritt kann Qualität gewinnen oder verlieren – und jeder Schritt muss sicher sein.

Ingestion & Datenpipeline

Ingestion bedeutet: Inhalte aus Quellen (Confluence, Git, PDFs, HTML, Tickets) werden in ein einheitliches, suchbares Format überführt. Qualität hängt hier stark von Parsing und Normalisierung ab:

Chunking-Strategien (mit Overlap)

Chunking teilt Dokumente in Passagen. Zu kleine Chunks verlieren Kontext, zu große Chunks verwässern Relevanz und erhöhen Tokenkosten. Bewährte Strategien:

Embeddings & semantische Suche

Embeddings transformieren Text in Vektoren, sodass semantische Ähnlichkeit messbar wird. Wichtige Aspekte:

Retriever: Filter, Hybrid, Query Expansion

Retrieval ist nicht nur „Top-K Vektorsuche“. Gute Systeme kombinieren:

Re-Ranking (Cross-Encoder)

Re-Ranking bewertet Kandidatenpassagen nochmals genauer. Typisch: Retriever holt Top-50, Re-Ranker liefert Top-5/Top-10 für den Prompt. Das steigert Präzision – besonders bei ähnlichen Dokumenten oder „nahen“ Themen.

Prompt-Design & Kontextformat

[DOC 1 | Titel | Datum | URL] ... Passage ... [DOC 2 | ...] ... Passage ... Regel: Nur mit diesen Passagen antworten. Wenn nicht enthalten: 'nicht im Kontext'.

Evaluation (Golden Set, Metriken)

Kosten, Latenz & Skalierung

Sicherheit (Prompt Injection, ACL, Policy)

Best Practices & typische Fehler

Best PracticeWarumTypischer Fehler
Metadaten-Filter + ACLverhindert Leaksein Index für alles
Chunking nach Strukturbessere PassagenSplit alle N Zeichen
Re-Rankinghöhere Präzisionzu viel Kontext
Golden Set Testsmessbare Qualitätnur Bauchgefühl
Kontext-PolicyInjection-ResistenzDokumente steuern das Modell

FAQ

RAG oder Fine-Tuning?

RAG für dynamische Daten und Belege. Fine-Tuning für Stil, Format und Spezialfähigkeiten. Oft ist die Kombination ideal.

Warum halluziniert RAG trotzdem?

Meist wegen falschem Retrieval, zu viel irrelevanter Kontext oder fehlender Belegpflicht. Lösung: Retrieval/Re-Ranking verbessern, Prompt-Regeln, Evaluation.

Welche Vektordatenbank ist am besten?

Wichtiger als der Anbieter sind Metadaten/ACL, Latenz, Skalierung, Betrieb und ein sauberes Datenmodell.

Hinweis: Für produktive RAG-Systeme sind Governance (Dokumentenqualität), Security (ACL/Injection) und Evaluation (Golden Set) entscheidend.