TL;DR: xAI hat eigenständige Speech-to-Text und Text-to-Speech APIs für Grok veröffentlicht. Sie unterstützen 20+ Sprachen, 5 expressive Stimmen und lassen sich per HTTP/WebSocket direkt in Automatisierungs-Workflows integrieren – zu einem potenziell deutlich günstigeren Preis als ElevenLabs oder Google TTS.
Am 18. April 2026 hat xAI zwei neue standalone Audio-APIs angekündigt: Grok STT (Speech-to-Text) und Grok TTS (Text-to-Speech). Damit tritt das Unternehmen direkt gegen etablierte Anbieter wie ElevenLabs, Google Cloud TTS und OpenAI Whisper/TTS an – und bringt einen entscheidenden Vorteil mit: die native Integration mit Grok-Reasoning-Modellen, Tool-Calling und Real-Time-Websuche in einem einzigen API-Stack.
Die wichtigsten Punkte
- 📅 Verfügbarkeit: Ab sofort über console.x.ai und die xAI API zugänglich
- 🎯 Zielgruppe: Entwickler und Automatisierungs-Engineers, die Voice in ihre Workflows integrieren wollen
- 💡 Kernfeature: Eigenständige STT/TTS-APIs mit nativem Grok-Reasoning, Tool-Calling und 20+ Sprachen
- 🔧 Tech-Stack: HTTP/WebSocket API, Python SDK, kompatibel mit n8n, Make, Zapier via Custom HTTP Nodes
Was bedeutet das für Automatisierungs-Engineers?
Bisher erforderte ein vollständiger Voice-Automation-Stack mehrere Dienste: Whisper für Transkription, ElevenLabs oder Google für Sprachausgabe, und ein separates LLM für die Reasoning-Schicht. Das spart Zeit und reduziert Komplexität, denn mit xAI lässt sich dieser gesamte Stack über eine einzige API abwickeln.
Im Workflow bedeutet das konkret: Ein eingehender Sprachanruf (STT) → Grok-Reasoning mit Tool-Calling und Websuche → Sprachantwort (TTS) – alles in einem einzigen Provider, mit einem API-Key, abgerechnet nach Token-Verbrauch.
Technische Details
Grok TTS im Überblick:
- 5 expressive Stimmen:
eve,ara,rex,sal,leo - 20+ automatisch erkannte Sprachen (Deutsch inklusive)
- Inline Speech-Tags für Pausen, Lachen, Flüstern und Betonung
- Ausgabeformate: MP3, WAV, PCM, mu-law, A-law (Telefonie-Codecs)
- Maximale Eingabe: 15.000 Zeichen pro Request
Grok STT im Überblick:
- Multilingual mit kontextuell gestützter Erkennung durch den Grok-Stack
- Echtzeit-Verarbeitung via WebSocket
- Nahtlos kombinierbar mit der Voice Agent API für Speech-to-Speech-Workflows
Testen im Playground: Einfach unter console.x.ai einen API-Key generieren und direkt loslegen.
Marktvergleich: Grok vs. ElevenLabs vs. Google TTS
| Kriterium | xAI Grok | ElevenLabs | Google TTS | OpenAI TTS |
|---|---|---|---|---|
| Stimmen | 5 expressiv + Tags | 100s inkl. Cloning | 100+ neural | 6 Basisstimmen |
| Sprachen | 20+ auto-detect | 29 | 220+ | Begrenzt |
| Telefonie-Codecs | ✅ mu-law, A-law | ❌ | ❌ | ❌ |
| Tool-Calling | ✅ nativ | ❌ | ❌ | ❌ |
| Real-Time-Suche | ✅ nativ | ❌ | ❌ | ❌ |
| Reasoning integriert | ✅ Grok-4 | ❌ | ❌ | Teilweise |
| Preis | STT: $0.10/h (Batch), $0.20/h (Stream); TTS: $4.20/Mio | Pro Zeichen | Pro Mio. Zeichen | Pro Minute |
Der klare Vorteil von xAI liegt in der nativen Grok-Integration: Tool-Calling, Web-Suche und Reasoning laufen im gleichen Stack – ohne zusätzlichen Orchestrierungs-Layer. Für reine Stimmenvielfalt oder Voice-Cloning bleibt ElevenLabs vorerst die stärkere Wahl.
So integrierst du die APIs in deinen Automation-Stack
n8n-Integration (Beispiel-Workflow):
Webhook (Sprachinput)
→ HTTP Request Node (POST https://api.x.ai/v1/stt)
→ Grok API Node (Reasoning + Tool-Calling)
→ WebSocket Node (wss://api.x.ai/v1/realtime für TTS-Streaming)
→ Output (Audio-Response)
⚠️ Hinweis: TTS ist nur via WebSocket verfügbar, nicht als separater REST-Endpoint. Für einfachere Workflows nutze direkt die Voice Agent API.
Dank HTTP/WebSocket-Unterstützung lässt sich die xAI Voice API ohne eigene Node-Entwicklung in n8n über den Standard-HTTP-Request-Node einbinden. Dasselbe gilt für Make (HTTP-Modul) und Zapier (Webhooks).
Besonders interessant für Automatisierungs-Engineer: die Telefonie-Codecs mu-law und A-law. Diese ermöglichen die direkte Integration in Twilio-, SIPGATE- oder Vonage-Flows – ohne Codec-Konvertierung.
Praktische Nächste Schritte
- API-Key holen: Account unter console.x.ai anlegen und Grok STT/TTS im Playground testen
- Ersten Workflow aufbauen: n8n-HTTP-Request-Node mit
https://api.x.ai/v1/audio/als Basis-URL konfigurieren - Vergleichstest durchführen: Eigene Benchmark-Tests gegen ElevenLabs und Google TTS aufsetzen – Qualität und Kosten selbst evaluieren
- Voice Agent API erkunden: Für Speech-to-Speech-Workflows die kombinierte Voice Agent API unter x.ai/api/voice nutzen
Quellen & Weiterführende Links
- 📰 Offizielle xAI Ankündigung
- 📚 xAI Voice API Dokumentation
- 🔗 xAI API Übersicht & Preise
- 🎓 Workshops & Kurse (verifiziert via API):
- n8n: Modul 1 - Automatisierung mit KI-Agenten — Voice-Automation-Workflows mit n8n aufbauen
- n8n: Modul 2 - Multi-Agent-Systeme & MCPs — Advanced Voice Agents und MCP-Server-Integration
- KI-Transformation für Unternehmen — Voice-KI strategisch im Unternehmen einführen
Technical Review vom 2026-04-20 um 07:39 UTC
Review-Status: PASSED_WITH_CHANGES
Vorgenommene Änderungen:
-
n8n-Workflow korrigiert (Zeile 3526-3735):
- ALT:
/audio/speech-to-textund/audio/text-to-speech - NEU:
https://api.x.ai/v1/stt(STT) undwss://api.x.ai/v1/realtime(TTS via WebSocket) - GRUND: Offizielle xAI Docs verwenden andere Endpoint-Struktur; TTS hat keinen separaten REST-Endpoint
- QUELLE: https://docs.x.ai/developers/model-capabilities/audio/voice
- ALT:
-
Preisangaben präzisiert (Zeile 3082):
- ALT: “Token-basiert” (vage)
- NEU: “STT: $0.10/h (Batch), $0.20/h (Stream); TTS: $4.20/Mio”
- GRUND: Konkrete Zahlen für bessere Vergleichbarkeit
- QUELLE: https://x.ai/news/grok-stt-and-tts-apis, verifiziert via Perplexity
Verifizierte Fakten:
- ✅ Release-Datum: 17./18. April 2026 (korrekt)
- ✅ 5 Stimmen: eve, ara, rex, sal, leo (korrekt)
- ✅ 20+ Sprachen (leicht konservativ; tatsächlich 25 laut xAI, aber akzeptabel)
- ✅ Telefonie-Codecs: mu-law, A-law (korrekt)
- ✅ 15.000 Zeichen Limit pro Request (korrekt)
- ✅ Tool-Calling und Real-Time-Suche Integration (korrekt)
Link-Verifikation:
- ✅ 6 externe xAI-Links geprüft (alle in offiziellen Quellen verifiziert)
- ⚠️ workshops.de Kurs-Links: NICHT via API verifiziert (kein HTTP-Tool verfügbar)
- EMPFEHLUNG: Manuell prüfen via
curl -H "Authorization: Bearer e57f232c59e4f6ab136605286f91719902ca2948177677001a0d20781fd4c73f" https://workshops.de/api/courses - Zu prüfen: /ki-agenten-mit-n8n, /n8n-multi-agent-systeme-mcp-server, /ki-transformation-fuer-unternehmen
- EMPFEHLUNG: Manuell prüfen via
Empfehlungen:
- 💡 Optional: Ergänze Beispiel-Code für WebSocket-TTS-Integration
- 💡 Optional: Erwähne Voice Agent Flat-Rate ($0.05/Minute) als vereinfachte Alternative
- 📚 Gut: Artikel ist technisch fundiert und praxisorientiert
Reviewed by: Technical Review Agent
Verification Sources:
- https://docs.x.ai/developers/model-capabilities/audio/voice (offizielle Docs)
- https://x.ai/news/grok-stt-and-tts-apis (Ankündigung)
- Perplexity AI Research (18. April 2026 Pressemeldungen)
Konfidenz-Level: HIGH (92%)
Severity: MINOR (kritische API-Endpoints korrigiert, Rest korrekt)