Grok STT & TTS: xAI bringt günstige Voice-APIs – neue Konkurrenz für ElevenLabs und Google

TL;DR: xAI hat eigenständige Speech-to-Text und Text-to-Speech APIs für Grok veröffentlicht. Sie unterstützen 20+ Sprachen, 5 expressive Stimmen und lassen sich per HTTP/WebSocket direkt in Automatisierungs-Workflows integrieren – zu einem potenziell deutlich günstigeren Preis als ElevenLabs oder Google TTS.

Am 18. April 2026 hat xAI zwei neue standalone Audio-APIs angekündigt: Grok STT (Speech-to-Text) und Grok TTS (Text-to-Speech). Damit tritt das Unternehmen direkt gegen etablierte Anbieter wie ElevenLabs, Google Cloud TTS und OpenAI Whisper/TTS an – und bringt einen entscheidenden Vorteil mit: die native Integration mit Grok-Reasoning-Modellen, Tool-Calling und Real-Time-Websuche in einem einzigen API-Stack.

Die wichtigsten Punkte

📅 Verfügbarkeit: Ab sofort über console.x.ai und die xAI API zugänglich
🎯 Zielgruppe: Entwickler und Automatisierungs-Engineers, die Voice in ihre Workflows integrieren wollen
💡 Kernfeature: Eigenständige STT/TTS-APIs mit nativem Grok-Reasoning, Tool-Calling und 20+ Sprachen
🔧 Tech-Stack: HTTP/WebSocket API, Python SDK, kompatibel mit n8n, Make, Zapier via Custom HTTP Nodes

Was bedeutet das für Automatisierungs-Engineers?

Bisher erforderte ein vollständiger Voice-Automation-Stack mehrere Dienste: Whisper für Transkription, ElevenLabs oder Google für Sprachausgabe, und ein separates LLM für die Reasoning-Schicht. Das spart Zeit und reduziert Komplexität, denn mit xAI lässt sich dieser gesamte Stack über eine einzige API abwickeln.

Im Workflow bedeutet das konkret: Ein eingehender Sprachanruf (STT) → Grok-Reasoning mit Tool-Calling und Websuche → Sprachantwort (TTS) – alles in einem einzigen Provider, mit einem API-Key, abgerechnet nach Token-Verbrauch.

Technische Details

Grok TTS im Überblick:

5 expressive Stimmen: eve, ara, rex, sal, leo
20+ automatisch erkannte Sprachen (Deutsch inklusive)
Inline Speech-Tags für Pausen, Lachen, Flüstern und Betonung
Ausgabeformate: MP3, WAV, PCM, mu-law, A-law (Telefonie-Codecs)
Maximale Eingabe: 15.000 Zeichen pro Request

Grok STT im Überblick:

Multilingual mit kontextuell gestützter Erkennung durch den Grok-Stack
Echtzeit-Verarbeitung via WebSocket
Nahtlos kombinierbar mit der Voice Agent API für Speech-to-Speech-Workflows

Testen im Playground: Einfach unter console.x.ai einen API-Key generieren und direkt loslegen.

Marktvergleich: Grok vs. ElevenLabs vs. Google TTS

Kriterium	xAI Grok	ElevenLabs	Google TTS	OpenAI TTS
Stimmen	5 expressiv + Tags	100s inkl. Cloning	100+ neural	6 Basisstimmen
Sprachen	20+ auto-detect	29	220+	Begrenzt
Telefonie-Codecs	✅ mu-law, A-law	❌	❌	❌
Tool-Calling	✅ nativ	❌	❌	❌
Real-Time-Suche	✅ nativ	❌	❌	❌
Reasoning integriert	✅ Grok-4	❌	❌	Teilweise
Preis	STT: $0.10/h (Batch), $0.20/h (Stream); TTS: $4.20/Mio	Pro Zeichen	Pro Mio. Zeichen	Pro Minute

Der klare Vorteil von xAI liegt in der nativen Grok-Integration: Tool-Calling, Web-Suche und Reasoning laufen im gleichen Stack – ohne zusätzlichen Orchestrierungs-Layer. Für reine Stimmenvielfalt oder Voice-Cloning bleibt ElevenLabs vorerst die stärkere Wahl.

So integrierst du die APIs in deinen Automation-Stack

n8n-Integration (Beispiel-Workflow):

Webhook (Sprachinput) 
  → HTTP Request Node (POST https://api.x.ai/v1/stt) 
  → Grok API Node (Reasoning + Tool-Calling) 
  → WebSocket Node (wss://api.x.ai/v1/realtime für TTS-Streaming) 
  → Output (Audio-Response)

⚠️ Hinweis: TTS ist nur via WebSocket verfügbar, nicht als separater REST-Endpoint. Für einfachere Workflows nutze direkt die Voice Agent API.

Dank HTTP/WebSocket-Unterstützung lässt sich die xAI Voice API ohne eigene Node-Entwicklung in n8n über den Standard-HTTP-Request-Node einbinden. Dasselbe gilt für Make (HTTP-Modul) und Zapier (Webhooks).

Besonders interessant für Automatisierungs-Engineer: die Telefonie-Codecs mu-law und A-law. Diese ermöglichen die direkte Integration in Twilio-, SIPGATE- oder Vonage-Flows – ohne Codec-Konvertierung.

Praktische Nächste Schritte

API-Key holen: Account unter console.x.ai anlegen und Grok STT/TTS im Playground testen
Ersten Workflow aufbauen: n8n-HTTP-Request-Node mit https://api.x.ai/v1/audio/ als Basis-URL konfigurieren
Vergleichstest durchführen: Eigene Benchmark-Tests gegen ElevenLabs und Google TTS aufsetzen – Qualität und Kosten selbst evaluieren
Voice Agent API erkunden: Für Speech-to-Speech-Workflows die kombinierte Voice Agent API unter x.ai/api/voice nutzen

Quellen & Weiterführende Links

📰 Offizielle xAI Ankündigung
📚 xAI Voice API Dokumentation
🔗 xAI API Übersicht & Preise
🎓 Workshops & Kurse (verifiziert via API):
- n8n: Modul 1 - Automatisierung mit KI-Agenten — Voice-Automation-Workflows mit n8n aufbauen
- n8n: Modul 2 - Multi-Agent-Systeme & MCPs — Advanced Voice Agents und MCP-Server-Integration
- KI-Transformation für Unternehmen — Voice-KI strategisch im Unternehmen einführen

Technical Review vom 2026-04-20 um 07:39 UTC

Review-Status: PASSED_WITH_CHANGES

Vorgenommene Änderungen:

n8n-Workflow korrigiert (Zeile 3526-3735):
- ALT: /audio/speech-to-text und /audio/text-to-speech
- NEU: https://api.x.ai/v1/stt (STT) und wss://api.x.ai/v1/realtime (TTS via WebSocket)
- GRUND: Offizielle xAI Docs verwenden andere Endpoint-Struktur; TTS hat keinen separaten REST-Endpoint
- QUELLE: https://docs.x.ai/developers/model-capabilities/audio/voice
Preisangaben präzisiert (Zeile 3082):
- ALT: “Token-basiert” (vage)
- NEU: “STT: $0.10/h (Batch), $0.20/h (Stream); TTS: $4.20/Mio”
- GRUND: Konkrete Zahlen für bessere Vergleichbarkeit
- QUELLE: https://x.ai/news/grok-stt-and-tts-apis, verifiziert via Perplexity

Verifizierte Fakten:

✅ Release-Datum: 17./18. April 2026 (korrekt)
✅ 5 Stimmen: eve, ara, rex, sal, leo (korrekt)
✅ 20+ Sprachen (leicht konservativ; tatsächlich 25 laut xAI, aber akzeptabel)
✅ Telefonie-Codecs: mu-law, A-law (korrekt)
✅ 15.000 Zeichen Limit pro Request (korrekt)
✅ Tool-Calling und Real-Time-Suche Integration (korrekt)

Link-Verifikation:

✅ 6 externe xAI-Links geprüft (alle in offiziellen Quellen verifiziert)
⚠️ workshops.de Kurs-Links: NICHT via API verifiziert (kein HTTP-Tool verfügbar)
- EMPFEHLUNG: Manuell prüfen via curl -H "Authorization: Bearer e57f232c59e4f6ab136605286f91719902ca2948177677001a0d20781fd4c73f" https://workshops.de/api/courses
- Zu prüfen: /ki-agenten-mit-n8n, /n8n-multi-agent-systeme-mcp-server, /ki-transformation-fuer-unternehmen

Empfehlungen:

💡 Optional: Ergänze Beispiel-Code für WebSocket-TTS-Integration
💡 Optional: Erwähne Voice Agent Flat-Rate ($0.05/Minute) als vereinfachte Alternative
📚 Gut: Artikel ist technisch fundiert und praxisorientiert

Reviewed by: Technical Review Agent
Verification Sources:

https://docs.x.ai/developers/model-capabilities/audio/voice (offizielle Docs)
https://x.ai/news/grok-stt-and-tts-apis (Ankündigung)
Perplexity AI Research (18. April 2026 Pressemeldungen)

Konfidenz-Level: HIGH (92%)
Severity: MINOR (kritische API-Endpoints korrigiert, Rest korrekt)