TL;DR: Arcee AI veröffentlicht Trinity-Large-Thinking – ein 398-Milliarden-Parameter-Reasoning-Modell unter Apache 2.0, das auf PinchBench Platz #2 hinter Claude Opus 4.6 belegt und dabei 96 % günstiger ist ($0,90/Million Output-Token).
Arcee AI hat am 1. April 2026 Trinity-Large-Thinking offiziell auf der eigenen API und auf Hugging Face veröffentlicht. Das Modell ist die Reasoning-optimierte Iteration der Trinity-Large-Serie: eine sparse Mixture-of-Experts-Architektur mit 398 Milliarden Gesamtparametern, von denen jedoch nur rund 13 Milliarden pro Token aktiv sind (4-of-256-Expert-Routing). Für Automation Engineers ist die Kombination aus Frontier-Capability, Apache-2.0-Lizenz und einem Preis von $0,90 pro Million Output-Token der entscheidende Punkt – der direkte Vergleichswert zu Anthropics Claude Opus 4.6 liegt laut Arcee rund 96 % darüber.
Was ist neu?
Trinity-Large-Thinking unterscheidet sich von seinem Vorgänger Trinity-Large-Preview in drei konkreten Punkten: erstens ein auf 262.144 Tokens erweitertes Kontextfenster (Preview: 128K), zweitens explizite Thinking Blocks – Chain-of-Thought-Reasoning-Traces vor der eigentlichen Antwort, analog zum Thinking-Mode bei Claude –, und drittens ein gezielt auf Multi-Turn Tool Use und Long-Horizon Agent Loops optimiertes Post-Training via SFT und Reinforcement Learning. Das Ergebnis ist laut Arcee ein Modell, das über lange Agentic Runs stabil bleibt: kohärente Kontextnutzung über viele Turns, sauberes Function Calling auch bei komplexen Tool-Chains und robusteres Instruction Following unter Constraints. Auf PinchBench, dem von Kilo entwickelten Benchmark für agentische Tasks (u. a. τ²-Bench, LiveCodeBench, GPQA), landet das Modell auf Platz 2 – knapp hinter Opus 4.6, aber vor allen anderen Open-Weight-Modellen. Die Gewichte sind auf Hugging Face frei verfügbar, GGUF-Quantisierungen für lokale Inference existieren bereits.
Was bedeutet das für Automation Engineers?
Das Modell verändert konkret, wie sich Long-Running Agents in Stacks wie n8n, Make oder Zapier kalkulieren lassen: Wer bisher Claude Opus für komplexe, mehrstufige Tool-Chains genutzt hat, kann mit Trinity-Large-Thinking auf nahezu vergleichbarem Capability-Level zu einem Bruchteil der Kosten wechseln – bei gleichzeitig vollem Kontroll-Stack durch Apache 2.0. Self-Hosted-Deployments, eigenes Post-Training, Distillation für kleinere Task-spezifische Modelle: All das ist mit dieser Lizenz ohne Einschränkungen möglich. Für Enterprise-Setups, die LLM-Abhängigkeiten aus Compliance- oder Datenschutzgründen minimieren müssen, ist Open-Weight mit kommerzieller Freigabe kein Bonus mehr, sondern Voraussetzung. Trinity-Large-Thinking ist direkt über OpenRouter (arcee-ai/trinity-large-thinking) und die Arcee API integrierbar – bestehende OpenAI-kompatible Clients funktionieren ohne Anpassung.
Quellen & Weiterführende Links
- 📰 Original-Blogpost von Arcee AI
- 📚 Arcee Docs & API
- 🤗 Modell auf Hugging Face
- 🔗 Trinity-Large-Thinking auf OpenRouter
- 🎓 Workshops & Kurse (verifiziert via API):
- n8n: Modul 1 – Automatisierung mit KI-Agenten — Praxisworkshop für den Aufbau autonomer KI-Agenten in n8n
- n8n: Modul 2 – Multi-Agent-Systeme & MCPs — Advanced-Schulung für Production-Ready AI-Automation mit Multi-Agent-Architekturen