News

Teuken 7B: Europas Open-Source Antwort auf ChatGPT ist da – und sie spricht 24 Sprachen!

Das Fraunhofer IAIS veröffentlicht mit Teuken 7B ein mehrsprachiges KI-Modell unter Apache 2.0 für kommerzielle Nutzung. 7 Mrd. Parameter, 24 EU-Sprachen.

Robin Böhm
12. September 2025
8 min read
#AI #Open Source #LLM #Teuken #Fraunhofer #Europe #Multilingual
Teuken 7B: Europas Open-Source Antwort auf ChatGPT ist da – und sie spricht 24 Sprachen!

TL;DR: Das Fraunhofer IAIS hat mit Teuken 7B ein mehrsprachiges Open-Source Sprachmodell veröffentlicht. 7 Milliarden Parameter, trainiert in allen 24 EU-Amtssprachen, verfügbar unter Apache 2.0 Lizenz für kommerzielle Nutzung. Download kostenlos auf Hugging Face.

Europa schlägt zurück – und zwar mit 7 Milliarden Parametern und 24 Sprachen im Gepäck! Das Forschungsprojekt OpenGPT-X unter der Leitung des Fraunhofer IAIS hat gerade Teuken 7B veröffentlicht, ein großes Sprachmodell, das eine echte Alternative zu den US-dominierten AI-Giganten darstellt.

Die wichtigsten Fakten

  • 📅 Veröffentlichung: 26. November 2024
  • 💰 Kosten: Kostenlos verfügbar auf Hugging Face
  • 🎯 Zielgruppe: Unternehmen, Forscher und Entwickler in Europa
  • 🔧 Technologie: 7 Milliarden Parameter, 4 Billionen Training-Token
  • 📊 Impact: Erste echte europäische Alternative mit kommerzieller Lizenz
  • 🌍 Sprachen: Alle 24 offiziellen EU-Amtssprachen

Was macht Teuken 7B besonders?

Echte Mehrsprachigkeit von Grund auf

Im Gegensatz zu vielen anderen Modellen, die primär auf Englisch trainiert und dann “übersetzt” werden, wurde Teuken 7B von Anfang an mehrsprachig konzipiert. Mit etwa 50% nicht-englischen Trainingsdaten ist es eines der wenigen Modelle, das tatsächlich europäische Sprachen und Kulturen versteht – nicht nur oberflächlich übersetzt.

Was das bedeutet:

  • Kein “Lost in Translation” bei deutschen Fachbegriffen
  • Verständnis für europäische Kontexte und Regulierungen
  • Gleichwertige Performance über alle EU-Sprachen hinweg

Drei Versionen für jeden Bedarf

VersionLizenzVerwendungszweck
Teuken 7B-instruct-research-v0.4Research LicenseForschung & Wissenschaft
Teuken 7B-instruct-commercial-v0.4Apache 2.0✅ Kommerzielle Nutzung
Teuken 7B-instruct-v0.6CC BY-NC 4.0Nicht-kommerzielle Zwecke

Die kommerzielle Version unter Apache 2.0 ist der Game-Changer: Unternehmen können das Modell frei nutzen, anpassen und in ihre Produkte integrieren – ohne versteckte Kosten oder Lizenzfallen.

Technische Details im Überblick

Die Architektur

Teuken 7B basiert auf einer modernen Transformer-Architektur mit besonderen Optimierungen für Mehrsprachigkeit:

  • Parameter: 7 Milliarden (sweet spot zwischen Leistung und Effizienz)
  • Training: 4 Billionen Token aus allen EU-Sprachen
  • Tokenizer: Spezieller multilingualer Tokenizer für effiziente Verarbeitung
  • Instruction Tuning: Bereits für Chat-Anwendungen optimiert
  • Infrastruktur: Trainiert auf dem JUWELS Supercomputer im Forschungszentrum Jülich

Performance im Vergleich

Auf dem European LLM Leaderboard zeigt Teuken 7B solide Ergebnisse:

ModellDurchschnittEU21-ARCEU21-HellaSwagEU21-MMLU
Meta Llama 3.1 8B56.3%56.3%57.9%57.6%
Teuken 7B-Instruct54.3%58.1%62.4%42.5%
Mistral 7B v0.352.7%53.0%53.8%49.1%

Was die Zahlen zeigen: Teuken 7B schlägt sich beachtlich gegen etablierte Modelle und glänzt besonders bei mehrsprachigen Aufgaben. Bei logischem Denken (ARC) und Sprachverständnis (HellaSwag) übertrifft es sogar teilweise größere Modelle.

Praktische Anwendungsfälle

Sofort einsetzbar für:

🎯 RAG-Anwendungen (Retrieval Augmented Generation)

  • Intelligente Dokumentensuche in mehreren Sprachen
  • Unternehmens-Knowledge-Base mit EU-Compliance

🤖 Mehrsprachige Chatbots

  • Kundenservice ohne Sprachbarrieren
  • Interne Assistenten für internationale Teams

📝 Content-Generierung

  • Automatische Übersetzungen mit Kontext
  • Lokalisierte Marketing-Texte

📊 Datenextraktion

  • Informationen aus multilingualen Dokumenten
  • Compliance-Checks über Sprachgrenzen hinweg

Integration in die Praxis

Quick Start für Entwickler

# Installation via Hugging Face
from transformers import AutoModelForCausalLM, AutoTokenizer

# Model laden (commercial version)
model_name = "openGPT-X/Teuken-7B-instruct-commercial-v0.4"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Erste Anfrage
prompt = "Erkläre mir die DSGVO in einfachen Worten:"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs)
response = tokenizer.decode(outputs[0])

Fine-Tuning für spezielle Anwendungsfälle

Das Modell kann mit eigenen Unternehmensdaten weiter trainiert werden:

  • Continued Pretraining: Für domänenspezifisches Wissen
  • Instruction Tuning: Für spezielle Aufgabenstellungen
  • Model Merging: Kombination mit anderen Modellen

Gaia-X Integration und Datensouveränität

Ein entscheidender Vorteil: Teuken 7B ist vollständig in das Gaia-X Ökosystem integriert. Das bedeutet:

  • Daten bleiben in Europa: Keine Übertragung an US-Server
  • DSGVO-konform: Von Grund auf für europäische Standards entwickelt
  • Transparent: Vollständige Dokumentation und offener Trainingscode
  • Souverän: Keine Abhängigkeit von externen Cloud-Anbietern

Das Projektteam hinter OpenGPT-X

Mit 14 Millionen Euro Förderung vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) arbeiteten zehn Partner drei Jahre an diesem Projekt:

  • Fraunhofer IAIS & IIS (Projektleitung)
  • Forschungszentrum Jülich (Supercomputing)
  • TU Dresden (ScaDS.AI)
  • DFKI (Deutsches Forschungszentrum für KI)
  • Aleph Alpha, IONOS, ControlExpert
  • KI Bundesverband
  • WDR (Westdeutscher Rundfunk)

Roadmap & Ausblick

Aktueller Stand (September 2025):

  • Version 0.4 und 0.6 verfügbar
  • Aktive Community auf Discord
  • Laufende Optimierungen bis Projektende März 2025

Was kommt noch?:

  • Weitere Performance-Verbesserungen
  • Spezialisierte Versionen für verschiedene Branchen
  • Integration in europäische Cloud-Infrastrukturen
  • Community-getriebene Erweiterungen

Verfügbarkeit & Ressourcen

Download & Dokumentation

Preismodell

Die beste Nachricht: Es gibt keins! 🎉

  • Download: Kostenlos
  • Kommerzielle Nutzung: Kostenlos (Apache 2.0)
  • Support: Community-basiert oder über Fraunhofer-Beratung

Kritische Einordnung

Stärken

  • ✅ Echte Mehrsprachigkeit ohne Übersetzungs-Overhead
  • ✅ Kommerzielle Lizenz ohne Einschränkungen
  • ✅ Europäische Datensouveränität garantiert
  • ✅ Aktive Weiterentwicklung und Support

Entwicklungspotenzial

  • ⚠️ Bei Mathematik und Coding noch Luft nach oben
  • ⚠️ 7B Parameter kleiner als GPT-4 oder Claude
  • ⚠️ Wie alle LLMs: Kann halluzinieren und Unsinn produzieren

Fazit: Ein wichtiger Schritt für Europas digitale Souveränität

Mit Teuken 7B hat Europa endlich eine eigene, kommerziell nutzbare Alternative zu den großen US-Modellen. Ist es perfekt? Nein. Ist es ein GPT-4-Killer? Auch nicht. Aber es ist open source, mehrsprachig und frei verfügbar – und das macht es zu einem Game-Changer für europäische Unternehmen, die ihre Daten nicht über den Atlantik schicken wollen.

Die Tatsache, dass ein mit öffentlichen Mitteln gefördertes Projekt ein solches Modell unter Apache 2.0 Lizenz veröffentlicht, zeigt: Europa nimmt die AI-Challenge ernst. Und mit der aktiven Community und den geplanten Weiterentwicklungen wird Teuken 7B nur noch besser werden.

Next Steps für Interessierte:

  1. Modell testen: Download von Hugging Face
  2. Webinar besuchen: Kostenlose Einführung am 19.09.2025
  3. Community beitreten: Discord für Fragen und Austausch
  4. Fine-Tuning starten: Mit eigenen Daten für spezielle Use Cases

Die Zukunft der europäischen AI hat begonnen – und sie spricht unsere Sprache(n)! 🚀🇪🇺


Letzte Aktualisierung: 12. September 2025 Quellen: Fraunhofer IAIS, OpenGPT-X Projekt, Hugging Face Model Cards

Geschrieben von Robin Böhm am 12. September 2025