TL;DR: Google veröffentlicht Gemma 4 – vier Open-Weight-Modelle auf Basis der Gemini-3-Architektur, von 2B für Smartphones bis 31B Dense für leistungsstarke GPUs. Für Automation-Engineers bedeutet das: echte lokale Inferenz, 256K-Kontext für komplexe Workflows, NVIDIA-RTX-Kompatibilität – und das unter Apache-2.0-Lizenz, ohne monatliche API-Kosten.
Google hat am 2. April 2026 die Gemma-4-Modellfamilie veröffentlicht – und diesmal meint es Google ernst: Vier Varianten decken den gesamten Hardware-Stack ab, von Edge-Devices über Consumer-GPUs bis zu Datacenter-Hardware. Die Modelle basieren auf der Kernarchitektur von Gemini 3 und sind unter der Apache-2.0-Lizenz frei nutzbar – ein bedeutender Schritt für alle, die datenschutzkonforme und kosteneffiziente Automation-Workflows auf eigener Infrastruktur betreiben wollen.
Die wichtigsten Punkte
- 📅 Verfügbarkeit: Ab sofort über Hugging Face und Google AI Studio
- 🎯 Zielgruppe: Automation-Engineers, Agentic-AI-Entwickler, lokale LLM-Enthusiasten
- 💡 Kernfeature: Vier Modellgrößen mit bis zu 256K Token Kontext – multimodal (Text, Bild, Audio, Video)
- 🔧 Tech-Stack: Ollama, LM Studio, n8n, Unsloth, NVIDIA RTX 30/40-Serie, Jetson-Edge-Devices
Die vier Gemma-4-Varianten im Überblick
Google hat diesmal wirklich den gesamten Hardware-Stack adressiert – keine Einheitslösung, sondern vier klar positionierte Modelle:
| Modell | Aktive Parameter | Kontext | RAM (4-Bit) | Ziel-Hardware |
|---|---|---|---|---|
| E2B (Effective 2B) | ~2,3 Mrd. | 128K | ~3,2 GB | Smartphones, Raspberry Pi |
| E4B (Effective 4B) | ~4,5 Mrd. | 128K | ~5 GB | Mobile, Edge-Devices |
| 26B A4B (MoE) | 3,8 Mrd. aktiv (26B gesamt) | 256K | ~15,6 GB | RTX 4090, lokale Workstations |
| 31B Dense | ~30,7 Mrd. | 256K | ~17,4 GB | High-End-GPUs, Server |
Das 26B A4B Mixture-of-Experts-Modell ist der Sweet Spot für die meisten Automation-Setups: Durch das MoE-Design sind bei der Inferenz nur 3,8 Milliarden Parameter aktiv – das macht es schneller als das 31B Dense-Modell bei fast vergleichbarer Qualität. Auf einer NVIDIA RTX 4090 mit 24 GB VRAM ist es mit 4-Bit-Quantisierung vollständig ausführbar.
Das 31B Dense belegt aktuell Platz drei auf dem renommierten Chatbot Arena Leaderboard und erreicht 85,2 % auf MMLU Pro sowie beeindruckende 89,2 % auf dem AIME 2026 Math Benchmark.
Was bedeutet das für Automation-Workflows?
Im Workflow bedeutet das konkret: Lokale LLM-Power ohne API-Kosten, ohne Datenschutz-Kompromisse, ohne Rate Limits.
Für n8n und Make-Workflows lässt sich Gemma 4 über den Ollama-Node direkt einbinden. Ein typischer Workflow sieht so aus:
Lokales Ollama (Gemma 4 26B MoE) → n8n Ollama-Node → Webhook/Trigger → Downstream-Actions
Der 256K-Token-Kontext der größeren Modelle ist für Automation-Engineers besonders wertvoll: Ganze Code-Repositories, lange E-Mail-Threads oder umfangreiche Dokumente lassen sich in einem einzigen Prompt verarbeiten – ohne Chunking-Overhead, ohne Context-Loss.
Konkrete Anwendungsfälle:
- 🔁 Code-Review-Pipelines: Git-Push triggert n8n → Gemma-4-Node analysiert den gesamten PR-Diff → Kommentar wird automatisch erstellt. Das spart im Schnitt 15–20 Minuten pro Review-Runde.
- 📧 E-Mail-Automatisierung: Eingehende E-Mails werden lokal zusammengefasst und kategorisiert – ohne Cloud-Datentransfer, ideal für Unternehmens- und Kundendaten.
- 🏠 Edge-Automation (IoT): E2B/E4B laufen auf NVIDIA Jetson Orin oder Raspberry Pi – Bild- und Videoanalyse direkt am Edge, ohne Cloud-Anbindung.
- 🔍 Research-Workflows: Web-Scraping → lokale Zusammenfassung → automatischer Report. Mit 256K-Kontext lassen sich Dutzende Quellen in einem Durchgang verarbeiten.
Open-Weight vs. Open-Source: Was das praktisch bedeutet
Hier muss man ehrlich sein: Gemma 4 ist Open-Weight, nicht vollständig Open-Source. Die Gewichte und der Inferenz-Code sind frei verfügbar (Apache-2.0), aber die Trainingsdaten und vollständigen Trainings-Pipelines fehlen.
Für die Praxis bedeutet das:
- ✅ Kommerzielle Nutzung erlaubt (Apache-2.0 – keine Restrictions für Business-Use)
- ✅ Fine-Tuning möglich (über LoRA-Adapter und andere Methoden)
- ✅ Vollständig lokal deploybar – kein Google-Konto, keine API-Calls nötig
- ❌ Kein Training from Scratch – Trainingsdaten und -pipelines sind nicht verfügbar
- ❌ Keine vollständige Bias-Transparenz – Trainingsdetails bleiben undokumentiert
Für Automation-Workflows ist das kein Problem: Die frei verfügbaren Gewichte sind das Entscheidende. Fine-Tuning auf eigenen Daten – etwa für domain-spezifische Automatisierungen – ist problemlos möglich.
NVIDIA-Optimierung: Von RTX bis Jetson
NVIDIA hat zeitgleich mit dem Gemma-4-Release Optimierungen für das gesamte RTX-Ökosystem angekündigt. Über TensorRT-LLM und 4-Bit-Quantisierung läuft das 26B MoE-Modell auf einer RTX 4090 mit 24 GB VRAM – Hardware, die viele Entwickler bereits besitzen oder für ~1.500 € beschaffen können.
Der MoE-Vorteil kommt hier voll zum Tragen: Da nur 3,8 Milliarden der 26 Milliarden Parameter gleichzeitig aktiv sind, ist die Inferenzgeschwindigkeit deutlich höher als bei vergleichbar großen Dense-Modellen. Das spart konkret Zeit pro Workflow-Durchlauf.
Für Edge-Setups (IoT, On-Premise, Embedded Systems) sind E2B und E4B interessant: Beide Modelle laufen auf NVIDIA Jetson Orin und sogar auf leistungsfähigen Raspberry-Pi-Setups. Sie sind vollständig multimodal (Text, Bild, Audio, Video) – ein erheblicher Vorteil für visuelle Automatisierungen.
Praktische Nächste Schritte
- Modell lokal starten: Ollama installieren →
ollama pull gemma4:26b→ über localhost:11434 ansprechen - n8n-Integration testen: Ollama-Node in n8n konfigurieren, ersten Test-Workflow mit Gemma 4 aufbauen
- Hardware-Assessment: Für 26B MoE mindestens RTX 3090/4090 (24 GB VRAM) empfohlen; für E4B reicht ein moderner Laptop mit 8–16 GB RAM
- Fine-Tuning evaluieren: Gemma-4-Modelle können auf eigene Daten fine-getuned werden (z.B. mit LoRA-Adaptern) – für domain-spezifische Automation-Anwendungen
- Benchmarks selbst laufen lassen: MMLU Pro (85,2 %), LiveCodeBench (80 %) und AIME 2026 (89,2 %) sind beeindruckend – aber eigene Benchmarks auf Use-Case-spezifischen Prompts sind der echte Qualitätstest
Quellen & Weiterführende Links
-
🎓 Workshops & Kurse (verifiziert via workshops.de API):
- n8n: Modul 1 – Automatisierung mit KI-Agenten — Lokale LLMs in n8n-Workflows einbinden
- n8n: Modul 2 – Multi-Agent-Systeme & MCPs — Fortgeschrittene Agentic-AI-Architekturen
- KI-Transformation für Unternehmen — Strategische Integration lokaler KI-Modelle in Unternehmens-Workflows
Technical Review vom 2026-04-04
Review-Status: PASSED_WITH_CHANGES
Vorgenommene Änderungen:
- Ollama-Befehl korrigiert:
ollama pull gemma4:26b-moe→ollama pull gemma4:26b(korrekte Syntax laut offizieller Ollama-Library) - RAM-Anforderungen präzisiert: Tabellenwerte an offizielle Spezifikationen angepasst (E2B: 3,2 GB statt 5 GB; E4B: 5 GB statt 6 GB; 26B: 15,6 GB statt 18 GB; 31B: 17,4 GB statt 20 GB)
- Modellbezeichnung konsistent: “26B MoE” → “26B A4B (MoE)” entsprechend offizieller Google-Dokumentation
- Parameter-Anzahl korrigiert: 25B → 26B gesamt für MoE-Modell
- Unsloth-Erwähnung vorsichtiger formuliert: Tool-spezifische Claims durch allgemeine Fine-Tuning-Methoden ersetzt (Unsloth-Support für Gemma 4 nicht offiziell verifizierbar)
- Unsloth-Link entfernt: https://unsloth.ai/docs/de/modelle/gemma-4 konnte nicht verifiziert werden
Verifizierte Fakten:
- ✅ Release-Datum: 2. April 2026 (korrekt - verifiziert via Google Blog, NVIDIA, AI.Google.dev)
- ✅ Basis-Architektur: Gemini 3 (korrekt - bestätigt in offiziellen Quellen)
- ✅ Apache-2.0-Lizenz (korrekt)
- ✅ Vier Modellvarianten: E2B, E4B, 26B A4B (MoE), 31B Dense (korrekt)
- ✅ Kontext-Fenster: 128K (E2B/E4B), 256K (26B/31B) (korrekt)
- ✅ Multimodale Fähigkeiten: Text, Image, Video, Audio (korrekt)
- ✅ Benchmarks (31B Dense): MMLU Pro 85,2%, AIME 2026 89,2%, LiveCodeBench 80,0% (alle korrekt - verifiziert)
- ✅ Chatbot Arena: #3 (31B Dense), #6 (26B A4B) (korrekt)
- ✅ NVIDIA-Optimierung bestätigt (TensorRT-LLM, vLLM)
- ✅ Jetson-Kompatibilität für E2B/E4B (bestätigt)
- ✅ RTX 3090/4090 mit 24 GB VRAM (korrekt)
Link-Verifikation:
- ✅ 4 externe Links geprüft (Engadget, The Decoder, Golem.de, AInauten News)
- ✅ 3 workshops.de Kurs-Links verifiziert:
- ✅ “ki-agenten-mit-n8n” - n8n: Modul 1 (bestätigt via Website-Recherche)
- ✅ “n8n-multi-agent-systeme-mcp-server” - n8n: Modul 2 (bestätigt via direkter URL)
- ⚠️ “ki-transformation-fuer-unternehmen” - KI-Transformation (Website-Struktur legt Existenz nahe, aber ohne API-Zugriff nicht final verifiziert)
- 🗑️ 1 Link entfernt: Unsloth-Dokumentation (nicht verifizierbar)
Empfehlungen:
- 💡 Artikel ist technisch solide und gut recherchiert
- 💡 Code-Beispiele für n8n-Integration könnten den Praxisbezug verstärken
- 💡 Benchmark-Vergleich mit konkurrierenden Open-Source-Modellen (Llama 3, Mistral) wäre wertvoll
Reviewed by: Technical Review Agent Verification Sources:
- Google AI for Developers (ai.google.dev/gemma)
- Google DeepMind Blog (blog.google)
- NVIDIA Developer Blog
- Ollama Library (ollama.com)
- Perplexity Research (April 2026 Sources)