TL;DR: DeepSeek hat V4-Pro und V4-Flash veröffentlicht – Open-Source-Modelle mit 1-Million-Token-Kontext, 27 % weniger Compute als der Vorgänger und nativer Optimierung für Agent-Frameworks wie Claude Code. Das verändert konkret, wie kosteneffiziente Automatisierungs-Workflows mit leistungsstarken Modellen aufgebaut werden.
Am 24. April 2026 hat das chinesische KI-Labor DeepSeek sein lang erwartetes Flaggschiff-Modell V4 veröffentlicht – als Preview, aber direkt mit API-Zugang. Die beiden Varianten V4-Pro und V4-Flash sind Open Source, sofort nutzbar und setzen neue Maßstäbe beim Verhältnis von Leistung zu Kosten. Für Teams, die auf LLM-basierte Automatisierung setzen, gibt es drei Dinge, die jetzt relevant sind.
Was ist neu?
V4-Pro ist das größere Modell (1,6 Billionen Parameter, 49 Milliarden aktiv per MoE) und zielt auf komplexe Coding-Aufgaben und mehrstufige Agenten-Tasks. Auf den wichtigsten Benchmarks – Coding, Mathematik, STEM – liefert es Ergebnisse auf Augenhöhe mit Anthropic Claude Opus 4.6, OpenAI GPT-5.4 und Google Gemini 3.1. Laut internem Feedback bei DeepSeek bevorzugten Entwicklerinnen und Entwickler V4-Pro gegenüber Claude Sonnet 4.5 für Coding-Aufgaben.
V4-Flash (284 Milliarden Parameter, 13 Milliarden aktiv) ist die schlanke Variante: schneller, günstiger, für einfachere Agentenaufgaben und Hochdurchsatz-Szenarien konzipiert – und läuft bei vergleichsweise moderatem Compute-Bedarf.
Der zentrale technische Fortschritt liegt in der Attention-Architektur: Durch selektive Kompression älterer Kontextinhalte reduziert V4-Pro den Rechenaufwand bei einem 1-Million-Token-Fenster auf nur 27 % gegenüber dem Vorgänger V3.2 – der KV-Cache sinkt auf 10 %. Bei V4-Flash sind es sogar 10 % Compute und 7 % Memory. Das 1-Million-Token-Kontextfenster ist jetzt Standard für alle DeepSeek-Dienste.
DeepSeek hat V4 zudem explizit für agentic Coding-Szenarien optimiert und erreicht laut offiziellem Release State-of-the-Art-Werte in Agentic-Coding-Benchmarks.
Auf der Hardware-Seite hat DeepSeek V4 laut Fortune-Berichterstattung Unterstützung für Huawei Chips erhalten. Nvidia bleibt vorerst relevant, aber die Richtung ist klar: DeepSeek baut an einem parallelen AI-Stack.
Die Preise sprechen für sich: V4-Pro kostet 1,74 USD pro Million Input-Token und 3,48 USD Output – ein Bruchteil vergleichbarer Closed-Source-Modelle. V4-Flash liegt bei 0,14 USD Input und 0,28 USD Output und gehört damit zu den günstigsten leistungsstarken Modellen am Markt.
Was bedeutet das für Automatisierungs-Praktiker?
Das 1-Million-Token-Fenster bei drastisch reduziertem Compute-Bedarf bedeutet, dass Agenten-Workflows, die bislang an Kontextgrenzen oder Kostendeckeln gescheitert sind, neu bewertet werden können: Ein Coding-Agent, der eine vollständige Codebase liest, oder ein Research-Agent, der lange Dokumentenarchive analysiert, werden mit V4 deutlich günstiger betreibbar. Die explizite Optimierung für Claude Code ist dabei kein Marketingdetail – wer Claude Code oder ähnliche agentic-Setups bereits nutzt, kann V4-Pro als Drop-in-Alternative oder Ergänzung testen. V4-Flash eignet sich als Standardmodell für 80 % der Aufgaben in n8n-, Make- oder Zapier-basierten Workflows, wo es auf Durchsatz und Kosten ankommt, nicht auf maximale Reasoning-Tiefe. Ob V4 den R1-Moment der frühen 2025er wiederholt, ist offen – aber als Open-Source-Modell mit diesen Specs und Preisen ist es ab sofort ein ernsthafter Teil des LLM-Toolkits für Automatisierungs-Teams.
Quellen & Weiterführende Links
- 📰 Original-Artikel: Three reasons why DeepSeek’s new model matters (MIT Technology Review)
- 📚 DeepSeek V4 – Offizielle API & Modell-Infos
- 🎓 Workshops & Kurse (verifiziert via workshops.de API):
- Claude: Modul 3 – Agentic Software Engineering with Claude Code — Claude Code als Agent-Framework, direkt relevant für V4-Optimierung
- 💡 Passende Kurse zu n8n und KI-Agenten-Workflows befinden sich aktuell in Planung – informiere dich auf workshops.de über neue Angebote.