TL;DR: Google’s Veo 3 ist ab sofort über die Gemini API verfügbar und ermöglicht die Generierung von 8-sekündigen 720p-Videos mit synchronisiertem Audio aus Text oder Bildern. Mit zwei Modellvarianten (Veo 3 und Veo 3 Fast) und Preisen ab $0.40 pro Sekunde demokratisiert Google die KI-Video-Generierung für Entwickler.
Google hat seine neueste Video-Generierungs-Technologie Veo 3 in die Gemini API integriert und damit einen bedeutenden Schritt in Richtung zugänglicher KI-Video-Erstellung gemacht. Die Technologie, die erstmals im Juli 2025 vorgestellt wurde, ist nun vollständig über die API verfügbar.
Die wichtigsten Fakten
- 📅 Verfügbarkeit: Seit Juli 2025 in der Preview, jetzt vollständig integriert
- 💰 Preise: $0.75/Sekunde (Veo 3) oder $0.40/Sekunde (Veo 3 Fast)
- 🎯 Output: 8 Sekunden lange Videos in 720p mit nativem Audio
- 🔧 Zugang: Über Gemini API mit Google Cloud Billing
- 📊 Nutzung: Bereits millionenfach über Gemini App, Flow und Vertex AI verwendet
Was ist neu?
Veo 3 - Das Flaggschiff
Googles hochmodernes Video-Generierungsmodell bringt mehrere bahnbrechende Features mit:
Native Audio-Generierung
- Synchronisierte Dialoge mit realistischem Lippensync
- Soundeffekte passend zur Szene
- Umgebungsgeräusche für authentische Atmosphäre
Beeindruckender Realismus
- Natürliche Beleuchtung und physikalisch korrekte Bewegungen
- Filmische Qualität mit verschiedenen Stilen
- Detailreiche Texturen und flüssige Animationen
Erweiterte Prompt-Fähigkeiten
- Bis zu 450 Wörter pro Prompt
- Präzise Kontrolle über Kamerawinkel und -bewegungen
- Stilistische Anweisungen für verschiedene Genres
Veo 3 Fast - Speed meets Quality
Für Anwendungsfälle, bei denen Geschwindigkeit entscheidend ist, bietet Google mit Veo 3 Fast eine optimierte Variante:
- Reduzierte Generierungszeit bei hoher Qualität
- Kostengünstiger mit $0.40 pro Sekunde
- Ideal für A/B-Testing und schnelle Iterationen
- Perfekt für Social Media Content-Erstellung
Technische Details
API-Integration
Die Integration erfolgt über die bekannte Gemini API mit asynchroner Verarbeitung:
import time
from google import genai
client = genai.Client()
# Video mit Dialog generieren
prompt = """
Eine Nahaufnahme von zwei Personen vor einer kryptischen Zeichnung.
Ein Mann murmelt: 'Das muss der Schlüssel sein.'
Die Frau flüstert aufgeregt: 'Was hast du gefunden?'
"""
operation = client.models.generate_videos(
model="veo-3.0-generate-preview",
prompt=prompt,
)
# Auf Fertigstellung warten
while not operation.done:
time.sleep(10)
operation = client.operations.get(operation)
# Video herunterladen
video = operation.response.generated_videos[0]
client.files.download(file=video.video)
Image-to-Video Capabilities
Eine besonders spannende Funktion ist die Möglichkeit, aus statischen Bildern Videos zu generieren:
# Erst ein Bild mit Imagen generieren
imagen = client.models.generate_images(
model="imagen-3.0-generate-002",
prompt="Eine schlafende Katze im Sonnenschein",
)
# Dann als Video animieren
operation = client.models.generate_videos(
model="veo-3.0-generate-preview",
prompt="Kameraschwenk über eine schlafende Katze",
image=imagen.generated_images[0].image,
)
Vergleich mit bestehenden Lösungen
Feature | Veo 3 | Veo 3 Fast | Veo 2 (Legacy) |
---|---|---|---|
Video-Länge | 8 Sekunden | 8 Sekunden | 5-8 Sekunden |
Audio | ✅ Native Generation | ✅ Native Generation | ❌ Stumm |
Auflösung | 720p | 720p | 720p |
Preis/Sekunde | $0.75 | $0.40 | $0.60 |
Image-to-Video | ✅ | ✅ | ✅ |
Seitenverhältnis | 16:9 | 16:9 | 16:9, 9:16 |
Was bedeutet das für die Praxis?
Für Entwickler
- Einfache Integration: Bekannte Gemini API mit SDKs für Python, JavaScript und Go
- Flexible Preismodelle: Wahl zwischen Qualität (Veo 3) und Geschwindigkeit (Veo 3 Fast)
- Umfangreiche Dokumentation: Detaillierte Guides und Code-Beispiele verfügbar
Für Unternehmen
- Content-Produktion: Automatisierte Video-Erstellung für Marketing und Social Media
- Prototyping: Schnelle Visualisierung von Konzepten und Ideen
- Skalierbarkeit: API-basierter Zugang ermöglicht Batch-Processing
Einschränkungen & Sicherheit
Google implementiert mehrere Sicherheitsmechanismen:
- SynthID Watermarking: Alle generierten Videos sind digital markiert
- Regionale Beschränkungen:
personGeneration
in EU standardmäßig deaktiviert - Speicherdauer: Videos werden nur 2 Tage auf Servern gespeichert
- Content-Filter: Automatische Überprüfung auf problematische Inhalte
Prompt Engineering Tips
Für optimale Ergebnisse empfiehlt Google strukturierte Prompts mit folgenden Elementen:
- Motiv: Das Hauptobjekt oder die Person
- Aktion: Was im Video passiert
- Stil: Filmisch, animiert, dokumentarisch
- Kamera: Bewegung und Perspektive
- Atmosphäre: Beleuchtung und Stimmung
Beispiel für einen detaillierten Prompt:
Filmische Nahaufnahme (Komposition) eines verzweifelten Mannes
in grünem Trenchcoat (Motiv), der an einem Wandtelefon wählt (Aktion).
Die Szene ist in grünes Neonlicht getaucht (Atmosphäre).
Die Kamera fährt langsam näher (Bewegung), geringe Schärfentiefe.
Roadmap & Ausblick
Google hat bereits weitere Entwicklungen angekündigt:
Q3 2025: Erweiterte Audio-Kontrolle Q4 2025: Längere Videodauer (bis 30 Sekunden) 2026: Real-time Video Generation
Verfügbarkeit & Preise
- Beta-Zugang: Über Google AI Studio
- Preismodell:
- Veo 3: $0.75 pro Sekunde
- Veo 3 Fast: $0.40 pro Sekunde
- Free Tier: Begrenzte kostenlose Nutzung zum Testen
- Dokumentation: ai.google.dev/gemini-api/docs/video
Quick Links & Ressourcen
Fazit
Mit Veo 3 demokratisiert Google die KI-Video-Generierung und macht sie für Entwickler weltweit zugänglich. Die Kombination aus hoher Qualität, nativer Audio-Generierung und flexiblen Preismodellen positioniert Veo 3 als ernstzunehmenden Konkurrenten zu bestehenden Video-Generierungs-Tools wie Runway oder Pika Labs. Besonders die native Audio-Integration hebt Veo 3 von der Konkurrenz ab.
Next Steps für Interessierte:
- Google AI Studio Account erstellen
- API-Key generieren und Billing aktivieren
- Mit dem Quickstart Colab experimentieren
- Eigene Anwendungsfälle identifizieren und testen
Letzte Aktualisierung: 2025-08-14 Quellen: Google AI Documentation, Google Developers Blog, The Decoder