RAG (Retrieval Augmented Generation) kombiniert ein Sprachmodell mit Retrieval (Abruf relevanter Inhalte). Statt ausschließlich auf Trainingswissen zu setzen, holt das System zur Laufzeit passende Dokumentpassagen aus einer Wissensquelle (z. B. interne Dokus, Tickets, PDFs, Webseiten oder Datenbankartikel) und bindet sie als Kontext in den Prompt ein. Ergebnis: aktuellere und nachvollziehbarere Antworten – sofern Pipeline, Datenqualität und Sicherheitsregeln stimmen.
KurzregelRAG ist ein Daten- und Qualitätsproblem, nicht nur ein Modellproblem.
Gute Antworten entstehen durch gute Quellen, gutes Chunking/Retrieval, saubere Policies – und messbare Evaluation.
Inhalt
Architektur (End-to-End)
Ingestion & Datenpipeline
Chunking-Strategien (mit Overlap)
Embeddings & semantische Suche
Retriever: Filter, Hybrid, Query Expansion
Re-Ranking (Cross-Encoder)
Prompt-Design & Kontextformat
Evaluation (Golden Set, Metriken)
Kosten, Latenz & Skalierung
Sicherheit (Prompt Injection, ACL, Policy)
Best Practices & typische Fehler
FAQ
Architektur (End-to-End)
Eine robuste RAG-Architektur besteht aus zwei Hauptpfaden: Ingestion (Dokumente verarbeiten) und Serving
(User-Frage beantworten). Ein praxisnahes Standardbild:
Der entscheidende Punkt: RAG ist keine „einzige Funktion“, sondern eine Pipeline. Jeder Schritt kann Qualität gewinnen oder verlieren – und jeder Schritt muss sicher sein.
Ingestion & Datenpipeline
Ingestion bedeutet: Inhalte aus Quellen (Confluence, Git, PDFs, HTML, Tickets) werden in ein einheitliches, suchbares Format überführt. Qualität hängt hier stark von Parsing und Normalisierung ab:
Parsing: Struktur erhalten (Überschriften, Listen, Codeblöcke; Tabellen wenn möglich).
Versionierung: Aktualisierungen nachvollziehbar; alte Versionen ggf. archivieren.
Chunking-Strategien (mit Overlap)
Chunking teilt Dokumente in Passagen. Zu kleine Chunks verlieren Kontext, zu große Chunks verwässern Relevanz und erhöhen Tokenkosten. Bewährte Strategien:
Heading-basiert: Abschnitte nach H1/H2/H3; Listen/Codeblöcke zusammenhalten.
Token-basiert: z. B. 300–900 Tokens pro Chunk (Domäne entscheidet).
Overlap: 10–20% Überlappung für stabile Übergänge.
Semantisch: Sätze/Absätze so gruppieren, dass Aussagen vollständig bleiben.
Embeddings & semantische Suche
Embeddings transformieren Text in Vektoren, sodass semantische Ähnlichkeit messbar wird. Wichtige Aspekte:
Re-Ranking bewertet Kandidatenpassagen nochmals genauer. Typisch: Retriever holt Top-50, Re-Ranker liefert Top-5/Top-10 für den Prompt. Das steigert Präzision – besonders bei ähnlichen Dokumenten oder „nahen“ Themen.
[DOC 1 | Titel | Datum | URL] ... Passage ... [DOC 2 | ...] ... Passage ... Regel: Nur mit diesen Passagen antworten. Wenn nicht enthalten: 'nicht im Kontext'.
Evaluation (Golden Set, Metriken)
Recall@K: kommt die richtige Passage in Top-K vor?
Faithfulness: stimmt die Antwort mit Quellen überein?
Helpfulness: ist sie vollständig und umsetzbar?
Latency/Cost: P95-Latenz, Tokens pro Anfrage.
Kosten, Latenz & Skalierung
Kontext kompakt halten: nur relevante Passagen, kein Boilerplate.
RAG für dynamische Daten und Belege. Fine-Tuning für Stil, Format und Spezialfähigkeiten. Oft ist die Kombination ideal.
Warum halluziniert RAG trotzdem?
Meist wegen falschem Retrieval, zu viel irrelevanter Kontext oder fehlender Belegpflicht. Lösung: Retrieval/Re-Ranking verbessern, Prompt-Regeln, Evaluation.
Welche Vektordatenbank ist am besten?
Wichtiger als der Anbieter sind Metadaten/ACL, Latenz, Skalierung, Betrieb und ein sauberes Datenmodell.
Hinweis: Für produktive RAG-Systeme sind Governance (Dokumentenqualität), Security (ACL/Injection) und Evaluation (Golden Set) entscheidend.
Datenschutz
Analytics-Einwilligung
Diese Website nutzt Google Analytics zur anonymisierten Reichweitenmessung. Ohne Ihre Zustimmung werden keine Analytics-Daten gesendet.