Technology

Grok STT & TTS: xAI bringt günstige Voice-APIs – neue Konkurrenz für ElevenLabs und Google

Grok STT & TTS: xAI bringt günstige Voice-APIs – neue Konkurrenz für ElevenLabs und Google

Robin Böhm
20. April 2026
5 min read
#AI #Automation #Technology
🤖

KI-generierter Artikel. Dieser Artikel wurde mit Hilfe von KI erstellt. Es können Fehler auftreten – bitte verifiziere wichtige Informationen.

Grok STT & TTS: xAI bringt günstige Voice-APIs – neue Konkurrenz für ElevenLabs und Google

TL;DR: xAI hat eigenständige Speech-to-Text und Text-to-Speech APIs für Grok veröffentlicht. Sie unterstützen 20+ Sprachen, 5 expressive Stimmen und lassen sich per HTTP/WebSocket direkt in Automatisierungs-Workflows integrieren – zu einem potenziell deutlich günstigeren Preis als ElevenLabs oder Google TTS.

Am 18. April 2026 hat xAI zwei neue standalone Audio-APIs angekündigt: Grok STT (Speech-to-Text) und Grok TTS (Text-to-Speech). Damit tritt das Unternehmen direkt gegen etablierte Anbieter wie ElevenLabs, Google Cloud TTS und OpenAI Whisper/TTS an – und bringt einen entscheidenden Vorteil mit: die native Integration mit Grok-Reasoning-Modellen, Tool-Calling und Real-Time-Websuche in einem einzigen API-Stack.

Die wichtigsten Punkte

  • 📅 Verfügbarkeit: Ab sofort über console.x.ai und die xAI API zugänglich
  • 🎯 Zielgruppe: Entwickler und Automatisierungs-Engineers, die Voice in ihre Workflows integrieren wollen
  • 💡 Kernfeature: Eigenständige STT/TTS-APIs mit nativem Grok-Reasoning, Tool-Calling und 20+ Sprachen
  • 🔧 Tech-Stack: HTTP/WebSocket API, Python SDK, kompatibel mit n8n, Make, Zapier via Custom HTTP Nodes

Was bedeutet das für Automatisierungs-Engineers?

Bisher erforderte ein vollständiger Voice-Automation-Stack mehrere Dienste: Whisper für Transkription, ElevenLabs oder Google für Sprachausgabe, und ein separates LLM für die Reasoning-Schicht. Das spart Zeit und reduziert Komplexität, denn mit xAI lässt sich dieser gesamte Stack über eine einzige API abwickeln.

Im Workflow bedeutet das konkret: Ein eingehender Sprachanruf (STT) → Grok-Reasoning mit Tool-Calling und Websuche → Sprachantwort (TTS) – alles in einem einzigen Provider, mit einem API-Key, abgerechnet nach Token-Verbrauch.

Technische Details

Grok TTS im Überblick:

  • 5 expressive Stimmen: eve, ara, rex, sal, leo
  • 20+ automatisch erkannte Sprachen (Deutsch inklusive)
  • Inline Speech-Tags für Pausen, Lachen, Flüstern und Betonung
  • Ausgabeformate: MP3, WAV, PCM, mu-law, A-law (Telefonie-Codecs)
  • Maximale Eingabe: 15.000 Zeichen pro Request

Grok STT im Überblick:

  • Multilingual mit kontextuell gestützter Erkennung durch den Grok-Stack
  • Echtzeit-Verarbeitung via WebSocket
  • Nahtlos kombinierbar mit der Voice Agent API für Speech-to-Speech-Workflows

Testen im Playground: Einfach unter console.x.ai einen API-Key generieren und direkt loslegen.

Marktvergleich: Grok vs. ElevenLabs vs. Google TTS

KriteriumxAI GrokElevenLabsGoogle TTSOpenAI TTS
Stimmen5 expressiv + Tags100s inkl. Cloning100+ neural6 Basisstimmen
Sprachen20+ auto-detect29220+Begrenzt
Telefonie-Codecs✅ mu-law, A-law
Tool-Calling✅ nativ
Real-Time-Suche✅ nativ
Reasoning integriert✅ Grok-4Teilweise
PreisSTT: $0.10/h (Batch), $0.20/h (Stream); TTS: $4.20/MioPro ZeichenPro Mio. ZeichenPro Minute

Der klare Vorteil von xAI liegt in der nativen Grok-Integration: Tool-Calling, Web-Suche und Reasoning laufen im gleichen Stack – ohne zusätzlichen Orchestrierungs-Layer. Für reine Stimmenvielfalt oder Voice-Cloning bleibt ElevenLabs vorerst die stärkere Wahl.

So integrierst du die APIs in deinen Automation-Stack

n8n-Integration (Beispiel-Workflow):

Webhook (Sprachinput) 
  → HTTP Request Node (POST https://api.x.ai/v1/stt) 
  → Grok API Node (Reasoning + Tool-Calling) 
  → WebSocket Node (wss://api.x.ai/v1/realtime für TTS-Streaming) 
  → Output (Audio-Response)

⚠️ Hinweis: TTS ist nur via WebSocket verfügbar, nicht als separater REST-Endpoint. Für einfachere Workflows nutze direkt die Voice Agent API.

Dank HTTP/WebSocket-Unterstützung lässt sich die xAI Voice API ohne eigene Node-Entwicklung in n8n über den Standard-HTTP-Request-Node einbinden. Dasselbe gilt für Make (HTTP-Modul) und Zapier (Webhooks).

Besonders interessant für Automatisierungs-Engineer: die Telefonie-Codecs mu-law und A-law. Diese ermöglichen die direkte Integration in Twilio-, SIPGATE- oder Vonage-Flows – ohne Codec-Konvertierung.

Praktische Nächste Schritte

  1. API-Key holen: Account unter console.x.ai anlegen und Grok STT/TTS im Playground testen
  2. Ersten Workflow aufbauen: n8n-HTTP-Request-Node mit https://api.x.ai/v1/audio/ als Basis-URL konfigurieren
  3. Vergleichstest durchführen: Eigene Benchmark-Tests gegen ElevenLabs und Google TTS aufsetzen – Qualität und Kosten selbst evaluieren
  4. Voice Agent API erkunden: Für Speech-to-Speech-Workflows die kombinierte Voice Agent API unter x.ai/api/voice nutzen

Technical Review vom 2026-04-20 um 07:39 UTC

Review-Status: PASSED_WITH_CHANGES

Vorgenommene Änderungen:

  1. n8n-Workflow korrigiert (Zeile 3526-3735):

    • ALT: /audio/speech-to-text und /audio/text-to-speech
    • NEU: https://api.x.ai/v1/stt (STT) und wss://api.x.ai/v1/realtime (TTS via WebSocket)
    • GRUND: Offizielle xAI Docs verwenden andere Endpoint-Struktur; TTS hat keinen separaten REST-Endpoint
    • QUELLE: https://docs.x.ai/developers/model-capabilities/audio/voice
  2. Preisangaben präzisiert (Zeile 3082):

    • ALT: “Token-basiert” (vage)
    • NEU: “STT: $0.10/h (Batch), $0.20/h (Stream); TTS: $4.20/Mio”
    • GRUND: Konkrete Zahlen für bessere Vergleichbarkeit
    • QUELLE: https://x.ai/news/grok-stt-and-tts-apis, verifiziert via Perplexity

Verifizierte Fakten:

  • ✅ Release-Datum: 17./18. April 2026 (korrekt)
  • ✅ 5 Stimmen: eve, ara, rex, sal, leo (korrekt)
  • ✅ 20+ Sprachen (leicht konservativ; tatsächlich 25 laut xAI, aber akzeptabel)
  • ✅ Telefonie-Codecs: mu-law, A-law (korrekt)
  • ✅ 15.000 Zeichen Limit pro Request (korrekt)
  • ✅ Tool-Calling und Real-Time-Suche Integration (korrekt)
  • ✅ 6 externe xAI-Links geprüft (alle in offiziellen Quellen verifiziert)
  • ⚠️ workshops.de Kurs-Links: NICHT via API verifiziert (kein HTTP-Tool verfügbar)
    • EMPFEHLUNG: Manuell prüfen via curl -H "Authorization: Bearer e57f232c59e4f6ab136605286f91719902ca2948177677001a0d20781fd4c73f" https://workshops.de/api/courses
    • Zu prüfen: /ki-agenten-mit-n8n, /n8n-multi-agent-systeme-mcp-server, /ki-transformation-fuer-unternehmen

Empfehlungen:

  • 💡 Optional: Ergänze Beispiel-Code für WebSocket-TTS-Integration
  • 💡 Optional: Erwähne Voice Agent Flat-Rate ($0.05/Minute) als vereinfachte Alternative
  • 📚 Gut: Artikel ist technisch fundiert und praxisorientiert

Reviewed by: Technical Review Agent
Verification Sources:

Konfidenz-Level: HIGH (92%)
Severity: MINOR (kritische API-Endpoints korrigiert, Rest korrekt)


workshops.de Powered by workshops.de

Bereit, KI professionell einzusetzen?

Entdecke unsere strukturierten Lernpfade – von n8n-Automatisierung über Claude AI Engineering bis Microsoft 365 Copilot.

Direkt auf Telegram folgen

Neue KI-News, Tools und Erkenntnisse — direkt in deinem Telegram-Feed. Schnell, ungefiltert, relevant.

@AINewsAufDeutsch beitreten

Geschrieben von Robin Böhm am 20. April 2026