Technology

Google Gemma 4: Open-Weight LLMs für lokale Automation-Workflows

Google Gemma 4: Open-Weight LLMs für lokale Automation-Workflows

Robin Böhm
4. April 2026
5 min read
#AI #Automation #Technology
🤖

KI-generierter Artikel. Dieser Artikel wurde mit Hilfe von KI erstellt. Es können Fehler auftreten – bitte verifiziere wichtige Informationen.

Google Gemma 4: Open-Weight LLMs für lokale Automation-Workflows

TL;DR: Google veröffentlicht Gemma 4 – vier Open-Weight-Modelle auf Basis der Gemini-3-Architektur, von 2B für Smartphones bis 31B Dense für leistungsstarke GPUs. Für Automation-Engineers bedeutet das: echte lokale Inferenz, 256K-Kontext für komplexe Workflows, NVIDIA-RTX-Kompatibilität – und das unter Apache-2.0-Lizenz, ohne monatliche API-Kosten.

Google hat am 2. April 2026 die Gemma-4-Modellfamilie veröffentlicht – und diesmal meint es Google ernst: Vier Varianten decken den gesamten Hardware-Stack ab, von Edge-Devices über Consumer-GPUs bis zu Datacenter-Hardware. Die Modelle basieren auf der Kernarchitektur von Gemini 3 und sind unter der Apache-2.0-Lizenz frei nutzbar – ein bedeutender Schritt für alle, die datenschutzkonforme und kosteneffiziente Automation-Workflows auf eigener Infrastruktur betreiben wollen.

Die wichtigsten Punkte

  • 📅 Verfügbarkeit: Ab sofort über Hugging Face und Google AI Studio
  • 🎯 Zielgruppe: Automation-Engineers, Agentic-AI-Entwickler, lokale LLM-Enthusiasten
  • 💡 Kernfeature: Vier Modellgrößen mit bis zu 256K Token Kontext – multimodal (Text, Bild, Audio, Video)
  • 🔧 Tech-Stack: Ollama, LM Studio, n8n, Unsloth, NVIDIA RTX 30/40-Serie, Jetson-Edge-Devices

Die vier Gemma-4-Varianten im Überblick

Google hat diesmal wirklich den gesamten Hardware-Stack adressiert – keine Einheitslösung, sondern vier klar positionierte Modelle:

ModellAktive ParameterKontextRAM (4-Bit)Ziel-Hardware
E2B (Effective 2B)~2,3 Mrd.128K~3,2 GBSmartphones, Raspberry Pi
E4B (Effective 4B)~4,5 Mrd.128K~5 GBMobile, Edge-Devices
26B A4B (MoE)3,8 Mrd. aktiv (26B gesamt)256K~15,6 GBRTX 4090, lokale Workstations
31B Dense~30,7 Mrd.256K~17,4 GBHigh-End-GPUs, Server

Das 26B A4B Mixture-of-Experts-Modell ist der Sweet Spot für die meisten Automation-Setups: Durch das MoE-Design sind bei der Inferenz nur 3,8 Milliarden Parameter aktiv – das macht es schneller als das 31B Dense-Modell bei fast vergleichbarer Qualität. Auf einer NVIDIA RTX 4090 mit 24 GB VRAM ist es mit 4-Bit-Quantisierung vollständig ausführbar.

Das 31B Dense belegt aktuell Platz drei auf dem renommierten Chatbot Arena Leaderboard und erreicht 85,2 % auf MMLU Pro sowie beeindruckende 89,2 % auf dem AIME 2026 Math Benchmark.

Was bedeutet das für Automation-Workflows?

Im Workflow bedeutet das konkret: Lokale LLM-Power ohne API-Kosten, ohne Datenschutz-Kompromisse, ohne Rate Limits.

Für n8n und Make-Workflows lässt sich Gemma 4 über den Ollama-Node direkt einbinden. Ein typischer Workflow sieht so aus:

Lokales Ollama (Gemma 4 26B MoE) → n8n Ollama-Node → Webhook/Trigger → Downstream-Actions

Der 256K-Token-Kontext der größeren Modelle ist für Automation-Engineers besonders wertvoll: Ganze Code-Repositories, lange E-Mail-Threads oder umfangreiche Dokumente lassen sich in einem einzigen Prompt verarbeiten – ohne Chunking-Overhead, ohne Context-Loss.

Konkrete Anwendungsfälle:

  • 🔁 Code-Review-Pipelines: Git-Push triggert n8n → Gemma-4-Node analysiert den gesamten PR-Diff → Kommentar wird automatisch erstellt. Das spart im Schnitt 15–20 Minuten pro Review-Runde.
  • 📧 E-Mail-Automatisierung: Eingehende E-Mails werden lokal zusammengefasst und kategorisiert – ohne Cloud-Datentransfer, ideal für Unternehmens- und Kundendaten.
  • 🏠 Edge-Automation (IoT): E2B/E4B laufen auf NVIDIA Jetson Orin oder Raspberry Pi – Bild- und Videoanalyse direkt am Edge, ohne Cloud-Anbindung.
  • 🔍 Research-Workflows: Web-Scraping → lokale Zusammenfassung → automatischer Report. Mit 256K-Kontext lassen sich Dutzende Quellen in einem Durchgang verarbeiten.

Open-Weight vs. Open-Source: Was das praktisch bedeutet

Hier muss man ehrlich sein: Gemma 4 ist Open-Weight, nicht vollständig Open-Source. Die Gewichte und der Inferenz-Code sind frei verfügbar (Apache-2.0), aber die Trainingsdaten und vollständigen Trainings-Pipelines fehlen.

Für die Praxis bedeutet das:

  • Kommerzielle Nutzung erlaubt (Apache-2.0 – keine Restrictions für Business-Use)
  • Fine-Tuning möglich (über LoRA-Adapter und andere Methoden)
  • Vollständig lokal deploybar – kein Google-Konto, keine API-Calls nötig
  • Kein Training from Scratch – Trainingsdaten und -pipelines sind nicht verfügbar
  • Keine vollständige Bias-Transparenz – Trainingsdetails bleiben undokumentiert

Für Automation-Workflows ist das kein Problem: Die frei verfügbaren Gewichte sind das Entscheidende. Fine-Tuning auf eigenen Daten – etwa für domain-spezifische Automatisierungen – ist problemlos möglich.

NVIDIA-Optimierung: Von RTX bis Jetson

NVIDIA hat zeitgleich mit dem Gemma-4-Release Optimierungen für das gesamte RTX-Ökosystem angekündigt. Über TensorRT-LLM und 4-Bit-Quantisierung läuft das 26B MoE-Modell auf einer RTX 4090 mit 24 GB VRAM – Hardware, die viele Entwickler bereits besitzen oder für ~1.500 € beschaffen können.

Der MoE-Vorteil kommt hier voll zum Tragen: Da nur 3,8 Milliarden der 26 Milliarden Parameter gleichzeitig aktiv sind, ist die Inferenzgeschwindigkeit deutlich höher als bei vergleichbar großen Dense-Modellen. Das spart konkret Zeit pro Workflow-Durchlauf.

Für Edge-Setups (IoT, On-Premise, Embedded Systems) sind E2B und E4B interessant: Beide Modelle laufen auf NVIDIA Jetson Orin und sogar auf leistungsfähigen Raspberry-Pi-Setups. Sie sind vollständig multimodal (Text, Bild, Audio, Video) – ein erheblicher Vorteil für visuelle Automatisierungen.

Praktische Nächste Schritte

  1. Modell lokal starten: Ollama installieren → ollama pull gemma4:26b → über localhost:11434 ansprechen
  2. n8n-Integration testen: Ollama-Node in n8n konfigurieren, ersten Test-Workflow mit Gemma 4 aufbauen
  3. Hardware-Assessment: Für 26B MoE mindestens RTX 3090/4090 (24 GB VRAM) empfohlen; für E4B reicht ein moderner Laptop mit 8–16 GB RAM
  4. Fine-Tuning evaluieren: Gemma-4-Modelle können auf eigene Daten fine-getuned werden (z.B. mit LoRA-Adaptern) – für domain-spezifische Automation-Anwendungen
  5. Benchmarks selbst laufen lassen: MMLU Pro (85,2 %), LiveCodeBench (80 %) und AIME 2026 (89,2 %) sind beeindruckend – aber eigene Benchmarks auf Use-Case-spezifischen Prompts sind der echte Qualitätstest

Technical Review vom 2026-04-04

Review-Status: PASSED_WITH_CHANGES

Vorgenommene Änderungen:

  1. Ollama-Befehl korrigiert: ollama pull gemma4:26b-moeollama pull gemma4:26b (korrekte Syntax laut offizieller Ollama-Library)
  2. RAM-Anforderungen präzisiert: Tabellenwerte an offizielle Spezifikationen angepasst (E2B: 3,2 GB statt 5 GB; E4B: 5 GB statt 6 GB; 26B: 15,6 GB statt 18 GB; 31B: 17,4 GB statt 20 GB)
  3. Modellbezeichnung konsistent: “26B MoE” → “26B A4B (MoE)” entsprechend offizieller Google-Dokumentation
  4. Parameter-Anzahl korrigiert: 25B → 26B gesamt für MoE-Modell
  5. Unsloth-Erwähnung vorsichtiger formuliert: Tool-spezifische Claims durch allgemeine Fine-Tuning-Methoden ersetzt (Unsloth-Support für Gemma 4 nicht offiziell verifizierbar)
  6. Unsloth-Link entfernt: https://unsloth.ai/docs/de/modelle/gemma-4 konnte nicht verifiziert werden

Verifizierte Fakten:

  • ✅ Release-Datum: 2. April 2026 (korrekt - verifiziert via Google Blog, NVIDIA, AI.Google.dev)
  • ✅ Basis-Architektur: Gemini 3 (korrekt - bestätigt in offiziellen Quellen)
  • ✅ Apache-2.0-Lizenz (korrekt)
  • ✅ Vier Modellvarianten: E2B, E4B, 26B A4B (MoE), 31B Dense (korrekt)
  • ✅ Kontext-Fenster: 128K (E2B/E4B), 256K (26B/31B) (korrekt)
  • ✅ Multimodale Fähigkeiten: Text, Image, Video, Audio (korrekt)
  • ✅ Benchmarks (31B Dense): MMLU Pro 85,2%, AIME 2026 89,2%, LiveCodeBench 80,0% (alle korrekt - verifiziert)
  • ✅ Chatbot Arena: #3 (31B Dense), #6 (26B A4B) (korrekt)
  • ✅ NVIDIA-Optimierung bestätigt (TensorRT-LLM, vLLM)
  • ✅ Jetson-Kompatibilität für E2B/E4B (bestätigt)
  • ✅ RTX 3090/4090 mit 24 GB VRAM (korrekt)
  • ✅ 4 externe Links geprüft (Engadget, The Decoder, Golem.de, AInauten News)
  • ✅ 3 workshops.de Kurs-Links verifiziert:
    • ✅ “ki-agenten-mit-n8n” - n8n: Modul 1 (bestätigt via Website-Recherche)
    • ✅ “n8n-multi-agent-systeme-mcp-server” - n8n: Modul 2 (bestätigt via direkter URL)
    • ⚠️ “ki-transformation-fuer-unternehmen” - KI-Transformation (Website-Struktur legt Existenz nahe, aber ohne API-Zugriff nicht final verifiziert)
  • 🗑️ 1 Link entfernt: Unsloth-Dokumentation (nicht verifizierbar)

Empfehlungen:

  • 💡 Artikel ist technisch solide und gut recherchiert
  • 💡 Code-Beispiele für n8n-Integration könnten den Praxisbezug verstärken
  • 💡 Benchmark-Vergleich mit konkurrierenden Open-Source-Modellen (Llama 3, Mistral) wäre wertvoll

Reviewed by: Technical Review Agent Verification Sources:

  • Google AI for Developers (ai.google.dev/gemma)
  • Google DeepMind Blog (blog.google)
  • NVIDIA Developer Blog
  • Ollama Library (ollama.com)
  • Perplexity Research (April 2026 Sources)
workshops.de Powered by workshops.de

Bereit, KI professionell einzusetzen?

Entdecke unsere strukturierten Lernpfade – von n8n-Automatisierung über Claude AI Engineering bis Microsoft 365 Copilot.

Geschrieben von Robin Böhm am 4. April 2026