Context-Engineering, einfach erklärt

Prompt-Engineering war 2023 der Buzzword. Context-Engineering ist 2026 das Nachfolger-Paradigma, und es ist deutlich mehr als nur eine neue Worthülse für dasselbe. Simon Willison hat den Begriff geprägt, seitdem ist er etabliert. Hier knapp was es ist und warum es für produktions-reife LLM-Systeme zentral wurde.

In einem Satz

Context-Engineering ist die Disziplin, das Context-Window eines LLMs strukturiert zu gestalten, indem du systematisch entscheidest welche Informationen in welcher Reihenfolge in welchem Format ins Modell gelangen.

In drei Absätzen

Konzeptionell ist Context-Engineering der Übergang von “wie formuliere ich meinen Prompt clever” zu “wie baue ich den gesamten Context auf den das Modell zugreift”. Prompt-Engineering optimiert eine Textbox. Context-Engineering optimiert eine Pipeline aus mehreren Komponenten: System-Prompt, Tool-Definitionen, Few-Shot-Beispiele, retrieved Documents (RAG), aktuelle User-Frage, Conversation-History, sowie alle Zwischen-Outputs in einer mehrstufigen Anwendung.

Mechanisch besteht Context-Engineering aus vier Aktivitäten. Selection entscheidet welche Informationen überhaupt in den Context sollen (welche RAG-Chunks, welche Few-Shots, welche Vergangenheits-Turns). Compression komprimiert verbose Informationen so dass sie weniger Tokens kosten ohne Bedeutung zu verlieren (Summarization von älteren Conversation-Turns, Schema-Stripping bei strukturierten Daten). Ordering entscheidet die Reihenfolge im Context, weil moderne LLMs immer noch positional biases haben (Recency-Bias am Ende, Primacy-Bias am Anfang). Format wählt zwischen Markdown, XML-Tags, JSON, Plain-Text, je nachdem was das Modell besser parst.

Relevant wird Context-Engineering wenn dein System mehr als einen einfachen Q-A-Loop ist: Agents, RAG-Systeme, Multi-Turn-Konversationen, Tool-Use-Workflows. Bei einem einfachen Chat-Interface bringt dir Context-Engineering wenig. Bei einem Coding-Agent der Files liest, Edits macht, Tests laufen lässt und iteriert, ist die Context-Strategie der Unterschied zwischen “funktioniert manchmal” und “funktioniert zuverlässig”. Trade-offs: höherer Engineering-Aufwand initial, mehr Code zum Pflegen, aber massiv bessere Reproduzierbarkeit und Debug-Möglichkeit.

Tief, wenn du willst

Selection-Patterns sind die schwerste der vier Aktivitäten. Klassisches RAG-Top-K-Retrieval ist nur der einfachste Fall. In Produktion brauchst du oft Heuristiken: bei Coding-Agents “lade die Files die mit der aktuellen Funktion über Imports verbunden sind”, bei Customer-Support “lade die letzten drei Tickets dieses Kunden”, bei Research-Agents “lade Papers die in den bereits gefundenen Papers zitiert werden”. Anthropic hat in Building-Effective-Agents gezeigt dass spezialisierte Selection-Strategien typisch 20-40% Quality-Gewinn bringen gegenüber generischem Top-K.

Compression in der Praxis ist meistens Conversation-Memory. Naiv konkatenierst du alle Turns, was schnell den Context sprengt. Erste Optimierung ist Rolling-Window (nur die letzten N Turns). Zweite ist Hierarchical-Summarization (alle X Turns wird ein LLM-Aufruf gemacht der zusammenfasst, das Summary ersetzt die alten Turns). Dritte und beste ist Selective-Compression mit Importance-Scoring: ein kleines Modell oder Heuristik scort welche Turns wichtig genug sind komplett zu erhalten, der Rest wird summarised.

Ordering ist unterschätzt. Long-Context-Modelle haben “Lost-in-the-Middle” Problem: Information in der Mitte des Contexts wird oft schlechter verarbeitet als am Anfang oder Ende. Anthropic-Studien zeigen Performance-Drops von 15-30% bei Information die in der Mitte eines 100k-Context-Windows steht. Praktische Konsequenz: kritische Information (System-Prompt, aktueller User-Befehl) gehört an die Position-Enden, weniger kritische in die Mitte.

Format-Wahl ist Modell-spezifisch. Anthropic empfiehlt explizit XML-Tags für strukturierte Sektionen (<documents>, <tools>, <task>), weil Claude-Modelle darauf trainiert sind die zu erkennen. OpenAI-Modelle parsen Markdown oft besser. JSON ist universell aber teuer in Tokens (viele Quotes und Klammern). Hamel Husain hat empirische Tests gezeigt dass Format-Wechsel allein 5-15% Quality-Unterschiede macht.

Tool-Definitions im Context sind die Disziplin-tieftauchend. Wenn dein Agent 20 Tools hat, willst du nicht alle 20 in jedem Call senden (kostet zu viele Tokens, verwirrt das Modell). Lösungen: hierarchische Tool-Selection (erst Tool-Kategorie auswählen, dann Tools innerhalb), dynamisches Tool-Loading (basierend auf Heuristik welche Tools für die User-Frage relevant sind), oder Tool-Summarization (gruppiere ähnliche Tools in ein Meta-Tool).

Context-Cache verändert die Cost-Rechnung fundamental. Anthropics Prompt-Caching (und OpenAIs Pendant) reduzieren die Cost wiederverwendeter Context-Präfixe um 90%. Praktische Konsequenz: strukturiere deinen Context so dass der stabile Teil (System-Prompt, Tool-Definitions, Few-Shots) am Anfang steht und sich nie ändert, der variable Teil (User-Frage, aktuelle History) ans Ende. Das ist die wichtigste Cost-Optimierung in produktiven Multi-Turn-Systemen 2026.

Failure-Modes: Context-Window-Overflow (passiert wenn Selection-Heuristik nicht hard-limited ist), Token-Budgets nicht respektiert (Compression läuft, aber das Endresultat sprengt trotzdem), Format-Inkonsistenz zwischen Few-Shots und tatsächlichem Call (verwirrt das Modell), Stale-Information weil RAG nicht aktuell ist. Das letzte ist das gemeinste, weil das Modell die alte Information mit voller Confidence wiedergibt.

Wo dir das diese Woche begegnet ist

In der Aggregation tauchten mehrere Context-Engineering-Themen auf: Anthropic hat einen neuen Blog-Post zu Multi-Agent-Context-Coordination released, eine Reddit-Diskussion auf r/AI_Agents zu Memory-Patterns in LangGraph, und ein Hacker-News-Thread debattierte ob Context-Engineering wirklich eine neue Disziplin oder nur Prompt-Engineering-Rebranding ist. Plus eine LessWrong-Analyse zur Lost-in-the-Middle-Mitigation. Konsens unter Buildern: bei kleinen Systemen Übertreibung, bei produktiven Agent-Systems überlebensnotwendig.

Wenn du gerade einen Agent baust und die Quality unzuverlässig ist: bevor du an Prompt-Wording feilst, mach erst einen systematischen Audit deiner Context-Composition. Was kommt rein, in welcher Reihenfolge, in welchem Format. Das ist oft der höchste Quality-Hebel pro Aufwand.

Erklärt 2026-05-28 durch kaschnai-Konzept-Pipeline. Quality-Gates: 3-Tier-Klarheit (Gate 12), Source-Diversity (5 Quellen). Nächste Frische-Prüfung: 2027-05-28.