DE
Fehler & Fixes
Reale Failure Modes und wie du sie in Prod stoppst.
- Stiller Agent-Drift (Qualitäts-Regression) + Erkennung + Code★★☆Agents failen nicht auf einmal. Sie driften über Model/Tool/Prompt Changes, bis du eine Regression in Prod shipst. Canary, Golden Tasks, Replay und Metrics catchen Drift früh.
- Budget Explosion (Wenn Agents Geld verbrennen) + Fixes + Code★★☆Budgets failen nicht auf einmal. Sie leaken über Retries, Prompt Bloat und Tool Spam. So entstehen Budget Explosions in Prod — und so capst du Spend pro Run.
- Cascading Tool Failures (Wie Agents Outages verstärken) + Code★★☆Wenn Tools degradieren, verstärken naive Retries und Agent-Loops die Outage. Circuit Breaker, Bulkheads und Safe-Mode verhindern, dass dein Agent deine Dependencies DDoS’t.
- Deadlocks in Multi-Agent-Systemen (Failure Mode + Fixes + Code)★★☆Agents, die auf Agents warten, sind Distributed Deadlocks mit netteren Logs. Leases, Timeouts und Orchestration verhindern Hänger in Prod.
- Halluzinierte Quellen bei AI Agents (Failure Mode + Fixes + Code)★★☆Agents zitieren URLs, die sie nie gefetcht haben. Warum das in Prod passiert und wie du evidence-backed Citations erzwingst.
- AI Agent Infinite Loop (Erkennen + Fix, Mit Code)★★☆Dein Agent looped. Es ist 03:00. Die Rechnung steigt. Ursachen, Schäden, Kill-Switches — mit Code.
- Partial Outage Handling (Agent-Failure + Degrade Mode + Code)★★☆Ein Tool ist flaky, der Rest läuft. Agents thrashen dann gerne und verbrennen Budgets. So degradierst du sicher: partial results + klare stop reasons.
- Prompt Injection gegen Agents (Failure + Defenses + Code)★★☆Prompt Injection ist kein Jailbreak. Es ist untrusted Text aus Tools. So werden Agents in Prod getrickst — und so kommt Policy in Code.
- Tool-Response-Korruption (Schema-Drift + Truncation) + Code★★☆Corrupted oder driftende Tool Outputs führen zu falschen Actions. Output Validation, Size Limits und fail-closed verhindern, dass der Agent auf Garbage handelt.
- Token-Overuse-Incidents (Prompt-Bloat) + Fixes + Code★★☆Prompt Bloat ist ein Production-Incident: Latenz hoch, Cost hoch, Truncation droppt Policy. So entsteht Token Overuse — und so budgetest du Kontext.
- Tool-Spam Loops (Agent Failure Mode + Fixes + Code)★★☆Wenn ein Agent dasselbe Tool immer wieder aufruft, zahlst du dafür. Warum Tool Spam in Prod passiert und wie du’s stoppst.
- Warum Agenten in der Produktion scheitern (und wie man’s verhindert)★★☆Die meisten Agent-Fails sind keine Mystik. Es sind fehlende Budgets, fehlendes Policy-Enforcement, flaky Tools und null Observability. Hier ist die Failure-Taxonomie, die wir in Production benutzen.