News

Karpathys AutoResearch: 630 Zeilen die Ihre AI-Experimente revolutionieren

AutoResearch optimiert autonom über Nacht: Newsletter-Betreffzeilen um 30%, Landing Pages um 53% – alles mit einem Python-Skript.

Robin Böhm
26. März 2026
6 min read
#AI-Automation #Open-Source #Python #Karpathy #Autonomous-Agents
Karpathys AutoResearch: 630 Zeilen die Ihre AI-Experimente revolutionieren

Karpathys AutoResearch: 630 Python-Zeilen, die Ihre AI-Experimente über Nacht revolutionieren

TL;DR: Andrej Karpathy veröffentlicht AutoResearch – ein 630-Zeilen Python-Skript, das autonome AI-Experimente durchführt. Das Tool zeigt messbare Erfolge: 11% Performance-Steigerung bei ML-Modellen, 53% schnelleres Page-Rendering und 61% weniger Memory-Allocations bei Shopify. Die AI-Automation-Community hat einen neuen Gamechanger: Andrej Karpathy, ehemaliger Tesla AI Director und OpenAI Gründungsmitglied, hat mit AutoResearch ein Tool geschaffen, das die Art, wie wir AI-Experimente durchführen, fundamental verändert. Das Besondere: Es läuft komplett autonom über Nacht und optimiert dabei alles von Newsletter-Betreffzeilen bis zu System-Prompts.

Die wichtigsten Punkte

  • 📅 Verfügbarkeit: Seit Anfang März 2026 Open-Source auf GitHub
  • 🎯 Zielgruppe: AI-Engineers, Automation-Profis, Product Manager
  • 💡 Kernfeature: Autonomer propose-train-evaluate Loop mit Git-Integration
  • 🔧 Tech-Stack: Python, beliebige LLM-API (Claude, GPT-4), Single-GPU oder CPU
  • ⏱️ Zeitersparnis: 700 Experimente in 48 Stunden vollautomatisch

Was bedeutet das für AI-Automation-Engineers?

Der revolutionäre Ratchet-Loop Mechanismus

AutoResearch implementiert einen cleveren “Ratchet-Loop” – eine Einwegklinke für AI-Experimente. Der Workflow spart konkret 90% manuelle Experimentier-Zeit:

  1. AI liest Kontext aus program.md und train.py
  2. Hypothese generieren basierend auf Literatur und Code-Analyse
  3. Code automatisch modifizieren – die AI editiert eigenständig
  4. 5-Minuten-Training auf GPU oder CPU
  5. Evaluierung: Besser → Git Commit, Schlechter → Git Reset
  6. Iteration: Automatisch über Nacht fortsetzen Im Workflow bedeutet das: Sie definieren einmal Ihre Metrik (Open-Rate, Conversion, Response-Time) und lassen die AI hunderte Varianten testen – während Sie schlafen.

Praktische Anwendungsfälle für Automation-Profis

1. Newsletter-Optimierung (30% höhere Open-Rates möglich)

# program.md - Newsletter-Betreffzeilen Optimierung
## Ziel
Maximiere die Email Open-Rate für unseren wöchentlichen Newsletter.
## Metrik
- **Primary**: open_rate_percentage (höher ist besser)
- **Baseline**: 22%
- **Target**: > 28%
## Setup
- Datei zum Modifizieren: subject_generator.py
- Test-Laufzeit: 2 Minuten pro Variante
- Command: `python test_subjects.py --eval`
## Commit-Regel
- Commit nur wenn open_rate_percentage > aktueller Baseline
- Bei Verschlechterung: `git reset --hard HEAD`
- Bei gleichem Wert: Skip
## Hypothesen-Bereiche
Teste Variationen in folgenden Bereichen:
- Emoji-Einsatz (Position, Anzahl, Typ)
- Personalisierung (First Name, Location, Verhalten)
- Urgency-Patterns (Zeitdruck, Verknappung, FOMO)
- Länge (6-15 Wörter optimal laut Literatur)
- Frage vs. Statement Formulierung
## Constraints
- Keine Clickbait-Versprechen
- Brand Voice einhalten
- Maximale Länge: 60 Zeichen
## NEVER STOP
Führe Experimente kontinuierlich aus. Bei Fehler: Log und weiter.

⚠️ Hinweis: Dies ist ein vereinfachtes Beispiel. Das echte program.md Format ist deutlich ausführlicher mit detaillierten Anweisungen für den AI-Agent. Siehe GitHub Repository für das vollständige Template. Das Tool testet automatisch Varianten und behält nur die Gewinner – komplett ohne manuelles A/B-Testing Setup.

2. Landing Page Performance (53% schneller bei Shopify)

Shopify CEO Tobi Lütke berichtet von 53% schnellerem Page-Rendering und 61% weniger Memory-Allocations nach 93 automatischen Commits bei der Optimierung von Shopify’s Liquid Templating Engine. Die Integration mit Make oder Zapier ermöglicht:

  • Automatisches Deployment der Varianten
  • Real-time Conversion-Tracking
  • Rollback bei Performance-Drops

3. System-Prompt Engineering für AI-Agents

Besonders relevant für n8n und Make.com Workflows:

  • Automatische Prompt-Variation: Testet hunderte Formulierungen
  • Objektive Bewertung: Accuracy, Response-Quality, Token-Effizienz
  • Git-History: Vollständige Nachvollziehbarkeit aller Änderungen

Technische Integration in bestehende Automation-Stacks

Kompatibilität mit gängigen Tools

Die Integration mit bestehenden Automatisierungs-Stacks ist überraschend einfach:

  • n8n: Via Python Script Node direkt einbindbar
  • Make.com: HTTP Requests an lokale AutoResearch-Instance
  • Zapier: Custom Code Steps für Trigger und Actions
  • GitHub Actions: Native Git-Integration vorhanden

Multi-Agent Pipeline Setup

AutoResearch unterstützt eine Multi-Agent-Architektur:

  • Literature-Review Agent: Recherchiert relevante Papers
  • Hypothesis Agent: Generiert Testvorschläge
  • Code-Writing Agent: Implementiert Änderungen
  • Analysis Agent: Bewertet Ergebnisse

ROI und Business-Impact

Konkrete Zeitersparnis-Metriken

  • Manuelle Experimente: 1 Test pro Stunde = 8 Tests/Tag
  • AutoResearch: 700 Tests in 48 Stunden = 350 Tests/Tag
  • Effizienzsteigerung: 4.375% mehr Experimente

Kostenvergleich

AnsatzKostenExperimente/WocheErfolgsrate
Manuell (Developer)€4.0004010-20%
AutoResearch€200 (GPU)2.4503-5% (aber 60x mehr)

Praktische Nächste Schritte

  1. Repository klonen: git clone https://github.com/karpathy/autoresearch
  2. Erste Metrik definieren: Starten Sie mit einem einfachen Use-Case (z.B. Email-Betreffzeilen)
  3. LLM-API einrichten: Claude oder GPT-4 API-Key in .env hinterlegen
  4. Overnight-Run starten: python train.py und morgens Ergebnisse prüfen

Community und Weiterentwicklung

Die Community zeigt enormes Interesse mit rasant wachsenden GitHub Stars seit der Veröffentlichung Anfang März 2026. Bereits entstanden sind:

  • Windows und Apple Silicon Ports
  • Non-ML Adaptionen für Business-Metriken
  • Integration-Plugins für populäre Automation-Plattformen

Was AutoResearch NICHT kann

Wichtig für realistische Erwartungen:

  • ❌ Nur für messbare Metriken geeignet (quantifizierbare Erfolgs-Kriterien erforderlich)
  • ❌ Keine kreativen oder subjektiven Aufgaben (z.B. Design-Entscheidungen)
  • ❌ Benötigt klare Erfolgs-Definition vorab (keine vagen Ziele)
  • ⚠️ Ursprünglich für ML-Training entwickelt - Non-ML Use-Cases benötigen Anpassungen
  • ⚠️ Erfordert technisches Setup-Know-how (Python, Git, LLM-APIs)

Fazit: Die Zukunft der AI-Automation

AutoResearch markiert einen Wendepunkt in der AI-Automation. Statt manuell Prompts zu tweaken oder A/B-Tests aufzusetzen, definieren wir nur noch Ziele – die Optimierung läuft autonom. Für AI-Automation-Engineers bedeutet das: Mehr Zeit für Strategie, weniger Zeit für repetitive Experimente. Die wahre Revolution liegt nicht in den 630 Zeilen Code, sondern im Mindset-Shift: Von “Ich optimiere” zu “Die AI optimiert sich selbst”. Das spart nicht nur Zeit – es erschließt Optimierungspotenziale, die wir manuell niemals erreichen würden.

workshops.de Powered by workshops.de

Bereit, KI professionell einzusetzen?

Entdecke unsere strukturierten Lernpfade – von n8n-Automatisierung über Claude AI Engineering bis Microsoft 365 Copilot.

Geschrieben von Robin Böhm am 26. März 2026