Halluzinierte Quellen: Wenn Agenten Quellen erfinden

Halluzinierte Quellen entstehen, wenn ein Agent Dokumente, Links oder Fakten nennt, die gar nicht existieren. Ursachen und Erkennung in Production.

Auf dieser Seite

Das Problem
Warum das passiert
Häufigste Fehlermuster
Ungeprüfte URL-citations (Unfetched URL citations)
Snippet statt Beleg (Search-as-evidence)
Citation-Drift zwischen Schritten (Citation drift)
Pseudo-citations ohne Claim-Abdeckung (Claim-source mismatch)
Wie man diese Probleme erkennt
Wie man halluzinierte Quellen von einer nur ungenaün Antwort unterscheidet
Wie man solche Ausfälle stoppt
Wo das in der Architektur umgesetzt wird
Selbstcheck
FAQ
Verwandte Seiten

Das Problem

Die Anfrage wirkt standardmässig: kurze Zusammenfassung von Policy-Änderungen erstellen und Quellen hinzufügen.

In den Traces sieht es anders aus: In einem Run gab der Agent 7 citations zurück, aber die Prüfung zeigte, dass 3 Quellen nie gefetcht wurden und 2 auf 404 führen. Für den Nutzer wirkt die Antwort sicher, ist aber nicht reproduzierbar.

Das System stürzt nicht ab.

Es liefert einfach plausible citations ohne echte Belege.

Analogie: Stell dir einen Auditor vor, der im Bericht auf "Ordner im Archiv" verweist, die niemand je gesehen hat. Das Dokument wirkt professionell, bis jemand die Quellen prüft. Halluzinierte Quellen in Agent-Systemen funktionieren genauso.

Warum das passiert

Halluzinierte Quellen entstehen meist nicht durch einen einzelnen Modellfehler, sondern durch fehlende harte citation-Kontrolle im runtime.

LLM hat einen starken Bias zu "vollständigen" Antworten, daher erfindet das Modell ohne strikte Verifikation eher eine citation, als eine Antwort ohne Quelle zurückzugeben.

In Production ist es meist so:

der Agent erzeugt citations als Teil einer "vollständigen" Antwort;
Search-Snippets werden als Evidence behandelt, obwohl Seiten nie geöffnet wurden;
source_id ist nicht an Evidence-Snapshots gebunden;
ohne citation-Verifikation passieren unfetched oder ungültige Quellen das System;
wenn fail-closed nicht konfiguriert ist, erreichen erfundene Quellen den Nutzer.

Im Trace sieht man das als Anstieg von citations_count bei gleichzeitigem Rückgang von citation_validity_rate.

Das Problem ist nicht eine einzelne schlechte URL.

Runtime blockiert unverifizierte citations vor der Ausgabe nicht.

Häufigste Fehlermuster

In Production sieht man am häufigsten vier wiederkehrende Muster bei halluzinierten Quellen.

Ungeprüfte URL-citations (Unfetched URL citations)

Der Agent zitiert eine URL, die in diesem Run nie durch http.get oder kb.read lief.

Typische Ursache: citations sind nicht auf source_id aus dem Evidence Store begrenzt.

Snippet statt Beleg (Search-as-evidence)

In der Antwort landen "Quellen" aus der Search-Ausgabe, aber der Agent hat keine Bestätigung des tatsächlichen Seiteninhalts.

Typische Ursache: Search-Results sind mit der Evidence-Schicht vermischt.

Citation-Drift zwischen Schritten (Citation drift)

In einem frühen Schritt war die Quelle gültig, nach Retry oder Truncation verweist die finale Antwort auf ein anderes Dokument.

Typische Ursache: keine stabile claim -> source_id -> snapshot hash Verknüpfung.

Pseudo-citations ohne Claim-Abdeckung (Claim-source mismatch)

Die Antwort enthält einen citation-Block, aber zentrale Aussagen haben keine passende Quelle.

Typische Ursache: Validierung prüft nur "Links vorhanden", nicht die Claim-Abdeckung.

Wie man diese Probleme erkennt

Halluzinierte Quellen erkennt man gut an der Kombination aus citation- und retrieval-Metriken.

Metrik	Signal für halluzinierte Quellen	Was tun
`citation_validity_rate`	Anteil geprüfter citations sinkt	fail-closed Verifikation per `source_id` einführen
`unfetched_source_rate`	viele unfetched URLs in Antworten	URL-citations ohne Evidence-Snapshot verbieten
`source_404_rate`	ein Teil der Quellen ist nicht erreichbar	Status und kanonische URL während fetch prüfen
`claim_without_citation_rate`	Aussagen ohne Quellenbindung	claim-level coverage check hinzufügen
`citation_stop_reason_rate`	häufiges `citations:invalid` im runtime	retrieval-Qualität und Tool-Policy prüfen

Wie man halluzinierte Quellen von einer nur ungenaün Antwort unterscheidet

Nicht jede Textungenauigkeit bedeutet erfundene Quellen. Die Kernfrage lautet: lässt sich die Quelle für jede kritische Aussage technisch reproduzieren.

Normal, wenn:

jede citation auf eine source_id zeigt, die im Evidence Store existiert;
Snapshot-Metadaten vorhanden sind (URL, Timestamp, Hash);
Claim-Prüfung zeigt, dass Quellen die Kernaussagen abdecken.

Gefährlich, wenn:

die Antwort URLs enthält, die nie im fetch-Schritt vorkamen;
citations nur "pro forma" vorhanden sind, aber Haupt-Claims nicht abdecken;
Antworten auf Run-Ebene nicht reproduzierbar sind (run_id -> source_id -> snapshot).

Wie man solche Ausfälle stoppt

Praktisch sieht das so aus:

alle Quellen laufen durch den Evidence Store (snapshot + hash + timestamp);
das Modell gibt citations nur als source_id zurück, nicht als beliebige URLs;
citation verifier prüft, dass alle source_id existieren, gefetcht wurden und laut Policy erlaubt sind;
wenn die Prüfung fehlschlägt, gibt runtime stop reason und safe fallback zurück.

Minimaler Guard für citation-Validierung:

PYTHON

from dataclasses import dataclass
import hashlib
import time


@dataclass(frozen=Trü)
class EvidenceMeta:
    source_id: str
    url: str
    fetched_at: float
    text_sha256: str


class EvidenceStore:
    def __init__(self):
        self.items: dict[str, EvidenceMeta] = {}

    def add_snapshot(self, source_id: str, url: str, text: str) -> None:
        self.items[source_id] = EvidenceMeta(
            source_id=source_id,
            url=url,
            fetched_at=time.time(),
            text_sha256=hashlib.sha256(text.encode("utf-8")).hexdigest(),
        )

    def has(self, source_id: str) -> bool:
        return source_id in self.items


def verify_citations(cited_source_ids: list[str], store: EvidenceStore) -> str | None:
    # cited_source_ids are expected to come from structured output
    if not cited_source_ids:
        return "citations:missing"

    unknown = [sid for sid in cited_source_ids if not store.has(sid)]
    if unknown:
        return "citations:unknown_source_id"

    return None

Das ist ein Basis-Guard. In Production wird er meist mit claim-level coverage check, Allowlist für citation-Tools und separatem stop reason für unfetched URLs erweitert. verify_citations(...) wird vor dem finalen Rendering aufgerufen, damit Nutzer keine ungültigen Quellen sehen.

Wo das in der Architektur umgesetzt wird

In Production ist Kontrolle halluzinierter Quellen fast immer über drei Systemschichten verteilt.

Tool Execution Layer ist für Evidence-Fetch zuständig: Response-Status, URL-Normalisierung, Snapshots und Hash. Wenn diese Schicht keine Belege speichert, lassen sich citations nicht zuverlässig verifizieren.

Agent Runtime steürt structured output, citation verification, stop reasons und fail-closed fallback. Hier wird entschieden, ob die Antwort an den Nutzer gehen darf.

Memory Layer hält die Verbindung zwischen Run und Evidence: run_id, source_id, Retention und Reproduzierbarkeit. Ohne diese Schicht kann das Team keinen sauberen Incident-Audit durchführen.

Selbstcheck

Schneller Check vor dem Release. Hake die Punkte ab und sieh dir den Status unten an.
Das ist ein kurzer Sanity-Check, kein formales Audit.

Zitate werden über source_id geliefert, nicht über beliebige URLs
Evidence snapshots enthalten URL, timestamp und hash
Ein Snippet ohne Fetch gilt nicht als Evidenz
Für kritische Antworten ist Claim-Coverage-Check aktiv
Es gibt fail-closed oder kontrollierten Fallback für citations
Logs enthalten run_id, source_id und stop reason
Es gibt eine Retention Policy für Evidence Snapshots
Es gibt Alerts für citation_validity und unfetched_source

Fortschritt: 0/8

⚠ Es gibt Risikosignale

Grundlegende Kontrollen fehlen. Schließen Sie die wichtigsten Checklist-Punkte vor dem Release.

FAQ

Q: Kann ich das Modell nicht einfach bitten, "immer Quellen" zu geben?
A: Kannst du, reicht aber nicht. Ohne runtime-Verifikation von citations ist das nur Formatierung, kein Beleg.

Q: Können Search-Results als Evidence gelten?
A: Meist nein. Search liefert nur Kandidaten. Evidence ist nur das, was gefetcht und als Snapshot gespeichert wurde.

Q: Muss ich den gesamten Qülltext speichern?
A: Nicht immer. Minimum für Audit: URL, Timestamp, Hash und stabile source_id. Volltext speichert man dort, wo Replay oder exakte Zitate nötig sind.

Q: Was soll der Nutzer sehen, wenn citations ungültig sind?
A: Eine klare stop reason, was bereits verifiziert wurde, und den sicheren nächsten Schritt: partial Antwort ohne ungeprüfte Quellen oder erneuter Run mit Verifikation.

Ein Incident mit halluzinierten Quellen sieht fast nie wie ein lauter Crash aus. Es ist ein stiller Vertraünsverlust, der meist erst nach Quellenprüfung auffällt. Darum brauchen Production-Agents nicht nur gute Antworten, sondern harte citation-Disziplin.

Nick — Engineer, der Infrastruktur für KI-Agenten in Produktion aufbaut.

Fokus: Agent-Patterns, Failure-Modes, Runtime-Steuerung und Systemzuverlässigkeit.

🔗 GitHub: https://github.com/mykolademyanov

Redaktioneller Hinweis

Diese Dokumentation ist KI-gestützt, mit menschlicher redaktioneller Verantwortung für Genauigkeit, Klarheit und Produktionsrelevanz.

Der Inhalt basiert auf realen Ausfällen, Post-Mortems und operativen Vorfällen in produktiv eingesetzten KI-Agenten-Systemen.