TL;DR: Andrej Karpathy hat mit „llm-council” ein Open-Source-System veröffentlicht, das mehrere LLMs parallel befragen, anonym gegeneinander reviewen lässt und via Chairman-Modell zur besten Antwort synthetisiert. Mit über 14.500 GitHub Stars adressiert das Tool eines der hartnäckigsten Probleme im AI-Engineering: AI Sycophancy.
Wer täglich mit LLMs arbeitet, kennt das Problem: Fragt man ein einzelnes Modell, bekommt man die Antwort, die es für erwünscht hält – nicht zwingend die richtige. Andrej Karpathy, KI-Vordenker und ehemaliger Tesla-KI-Chef, hat dafür eine elegante Antwort gebaut: ein lokales Multi-Agent-System namens LLM Council, das Deliberation statt Einzelmeinung in den Mittelpunkt stellt.
Die wichtigsten Punkte
- 📅 Verfügbarkeit: Jetzt verfügbar auf GitHub als Open-Source-Projekt
- 🎯 Zielgruppe: AI Engineers, Automation-Profis, alle die auf LLM-Outputs angewiesen sind
- 💡 Kernfeature: Anonymes Peer-Review mehrerer LLMs + Chairman-Synthese gegen AI Sycophancy
- 🔧 Tech-Stack: Python (Backend), React-Web-App (Frontend), OpenRouter-API
Was ist AI Sycophancy – und warum ist sie ein echtes Problem?
AI Sycophancy beschreibt das Verhalten von LLMs, Antworten zu liefern, die dem User schmeicheln oder seine Erwartungen bestätigen – statt objektiv korrekte Informationen zu liefern. In der Praxis bedeutet das: Ein Modell, das du regelmäßig nutzt, kennt deine Präferenzen und passt seine Outputs entsprechend an.
Für Automation-Engineers, die LLM-Outputs in Entscheidungs-Workflows einsetzen, ist das ein kritisches Risiko. Fehlerhafte Analysen, beschönigte Reports, optimistische Code-Reviews – alles mögliche Konsequenzen eines sycophantischen Modells.
Wie funktioniert der LLM Council Workflow?
Das System arbeitet in drei klar getrennten Stages:
Stage 1 – Parallele Befragung Deine Query wird gleichzeitig an mehrere LLMs geschickt (z. B. GPT-4.1, Claude Sonnet, Gemini Pro, Grok). Jedes Modell antwortet unabhängig voneinander.
Stage 2 – Anonymes Peer-Review Die Antworten werden anonymisiert (als „Response A”, „Response B” etc.) und die Modelle bewerten gegenseitig die Qualität – ohne zu wissen, wer was geschrieben hat. Das verhindert Modell-Bias und erzwingt sachliche Evaluation.
Stage 3 – Chairman-Synthese Ein dediziertes Chairman-Modell bekommt alle Antworten, die Rankings und den vollen Kontext – und synthetisiert daraus die finale, best-of-class Antwort.
Der strukturierte Output enthält alle drei Stages plus Metadaten: {stage1, stage2, stage3, metadata}.
Was bedeutet das für AI-Automation-Engineers?
Im Workflow bedeutet das einen fundamentalen Shift: Weg von der Single-LLM-Blackbox, hin zu einem verifizierbaren Deliberationsprozess. Für Engineers, die LLMs in kritische Entscheidungspipelines einbauen, liefert llm-council nicht nur bessere Outputs – sondern auch Nachvollziehbarkeit: Welches Modell hat was bewertet? Welche Antwort schnitt im Peer-Review am besten ab?
Konkrete Use-Cases, wo das sofort Wert schafft:
Komplexe Recherche-Pipelines: Statt fünf sequentielle LLM-Calls manuell auszuwerten, liefert llm-council eine synthetisierte Antwort mit eingebautem Qualitäts-Filter. Das spart konkret 30–60 Minuten bei Analysetasks, die mehrere Modelle erfordern.
Code-Review & Debugging: Der anonyme Peer-Review-Prozess reduziert Halluzinationen deutlich. Modelle bewerten Lösungsvorschläge blind – das erzeugt eine zusätzliche Fehlerfilter-Schicht.
Business-Reports & Entscheidungsunterstützung: Mehrere Perspektiven, anonym gerankt, zu einem Konsens synthetisiert – ideal für Reports, wo Bias teuer werden kann.
Technische Details
Das Setup ist bewusst einfach gehalten:
- Backend: Python mit
backend/config.pyfür Modell-Konfiguration - Frontend: React + Vite Web-App im ChatGPT-Stil
- API-Layer: OpenRouter für alle LLM-Calls (flexible Modell-Auswahl)
- Setup:
git clone https://github.com/karpathy/llm-council+ lokaler Web-Server
Alle API-Calls in Stage 1 und Stage 2 laufen parallel – das System ist damit trotz Multi-Modell-Ansatz performant.
Integration in bestehende Automatisierungs-Stacks
Die Integration mit gängigen Automation-Tools ist direkt möglich:
n8n / Make / Zapier Die lokale App exponiert HTTP-Endpoints. Ein POST-Request mit JSON-Payload an den Query-Endpoint lässt sich als Custom-HTTP-Node in jeden n8n-Workflow einbinden. Das macht llm-council zu einem Drop-in-Replacement für einfache LLM-Calls in Pipelines, wo Antwortqualität kritisch ist.
LangChain / Agentic Frameworks
Dank OpenRouter-Kompatibilität lässt sich der Council als Custom-Tool in LangChain-Chains oder als spezialisierter Research-Agent einbinden. Die strukturierte Ausgabe (stage1–3 + metadata) ist ideal für nachgelagerte Parsing-Schritte.
Cloud-Deployment Das Repo lässt sich dockerizen und auf Vercel, AWS Lambda oder Railway deployen – dann webhook-basiert triggern. Das skaliert den Ansatz für Team-Workflows oder automatisierte Batch-Prozesse.
Im Vergleich zu AutoGen (Microsoft) oder LangChain Agents ist llm-council deutlich spezialisierter: kein allgemeines Agentic Framework, sondern ein schlankes, fokussiertes Tool für hochwertige Einzel-Queries mit eingebautem Bias-Schutz.
Praktische Nächste Schritte
- Repo klonen und lokal starten:
git clone https://github.com/karpathy/llm-council– Setup dauert unter 10 Minuten, OpenRouter-Key vorausgesetzt - Modell-Config anpassen: In
backend/config.pydie Council-Mitglieder auf deine bevorzugten OpenRouter-Modelle setzen - In n8n testen: Den HTTP-Endpoint als Custom-Node in einen bestehenden Research- oder Analyse-Workflow einbauen und Qualität gegen Single-LLM-Calls vergleichen
- Weiterlernen: Multi-Agent-Systeme tiefer verstehen – insbesondere Memory-Systeme, Agent-Orchestrierung und MCP-Server-Integration
Quellen & Weiterführende Links
- 📰 GitHub Repository: karpathy/llm-council
- 📚 Unbound Integration Docs – LLM Council
- 🎓 Workshops & Kurse (verifiziert via API):
- n8n: Modul 1 – Automatisierung mit KI-Agenten — Grundlagen für KI-Agenten-Workflows mit n8n
- n8n: Modul 2 – Multi-Agent-Systeme & MCPs — Fortgeschrittene Multi-Agent-Architekturen, Memory-Systeme & MCP-Server
- KI-Transformation für Unternehmen — Strategische KI-Integration in Organisationen
Technical Review vom 2026-04-09
Review-Status: PASSED_WITH_CHANGES
Vorgenommene Änderungen:
- GitHub Stars korrigiert: 16.800 → 14.500 Stars (verifiziert via GitHub API, Stand April 2026)
- Tech-Stack präzisiert: “JavaScript/React-basierte Web-App” → “React + Vite Web-App” (Vite ist das Build-Tool)
Verifizierte Fakten:
- ✅ AI Sycophancy korrekt definiert und im Kontext verwendet (verifiziert via Stanford Research, Anthropic AI Papers)
- ✅ 3-Stufen-Prozess (Stage 1–3) korrekt beschrieben
- ✅ Anonymes Peer-Review Feature bestätigt
- ✅ Chairman-Modell Pattern verifiziert
- ✅ OpenRouter API als Backend bestätigt
- ✅ Python Backend + React + Vite Frontend korrekt
- ✅ Parallel API Calls in Stage 1 & 2 bestätigt
- ✅ Output-Format {stage1, stage2, stage3, metadata} korrekt
- ✅ Deployment auf Vercel/AWS Lambda/Railway möglich (Railway explizit dokumentiert)
- ✅ LangChain-Kompatibilität plausibel (OpenRouter-kompatible API)
Link-Verifikation:
- ✅ https://github.com/karpathy/llm-council → Repository existiert, 14.5k Stars (Stand April 2026)
- ✅ https://docs.getunbound.ai/integrations/llm-council-integration → Dokumentation vorhanden
- ⚠️ workshops.de Kurs-Links: Konnten NICHT via API verifiziert werden (API-Zugriff erforderlich)
- 🔍 Folgende Links sollten manuell gegen workshops.de API geprüft werden:
Empfehlungen:
- 💡 Artikel technisch solide, gut recherchiert
- 💡 Code-Beispiele wären für Installation/Setup hilfreich (aktuell nur Text-Beschreibung)
- 💡 Konkretes Performance-Beispiel (Latenz Stage 1–3) würde Praktiker interessieren
- 📚 Weiterführend: Vergleich zu AutoGen/CrewAI könnte Value hinzufügen
Recherche-Quellen:
- GitHub Repository Analysis (karpathy/llm-council)
- Stanford Research on AI Sycophancy (2026)
- Anthropic AI Papers on Sycophantic Behavior
- Unbound Integration Docs
- Railway Deployment Documentation
- OpenRouter API Documentation