Self-hosted LLMs für DSGVO-Compliance — Llama, Mistral, Mixtral im Mittelstand 2026

Warum Self-hosting für LLMs gerade jetzt relevant wird

Viele Mittelständler stehen vor derselben Situation: KI-Tools liefern echten Mehrwert, aber sensible Daten — Kundendossiers, Vertragsunterlagen, Personalakten — dürfen das eigene Netzwerk nicht verlassen. Die DSGVO ist eindeutig: Personenbezogene Daten an US-amerikanische Cloud-Anbieter zu übermitteln erfordert eine wasserdichte Rechtsgrundlage, einen Auftragsverarbeitungsvertrag und die Gewissheit, dass die Daten nicht zum Modelltraining genutzt werden.

Self-hosted LLMs lösen dieses Dilemma: Das Modell läuft auf eigener Hardware, Daten verlassen das Unternehmen nicht, und der Datenschutzbeauftragte schläft ruhig. Was vor zwei Jahren noch ein Experiment für Großkonzerne mit eigener Infrastruktur war, ist 2026 für mittelständische Unternehmen praktisch umsetzbar — vorausgesetzt, Sie wissen, welches Modell, welche Hardware und welchen Software-Stack Sie wählen.

Dieser Artikel zeigt Ihnen den Stand der Technik — ohne Hype, mit konkreten Zahlen. Wer mehr zur allgemeinen DSGVO-Compliance bei KI-Systemen erfahren möchte, findet eine rechtliche Einordnung in unserem Artikel zu KI-Agenten und DSGVO.

Wann macht Self-hosting wirklich Sinn?

Self-hosting ist kein Selbstzweck. Es lohnt sich, wenn mindestens eine der folgenden Bedingungen zutrifft:

Sensible Datenkategorien: Gesundheitsdaten, Finanzdaten, Personalinformationen oder Berufsgeheimnisse (Steuerberater, Anwälte, Ärzte). Jeder API-Call mit diesen Daten an einen Cloud-Anbieter ist eine Drittlandübermittlung mit entsprechendem Rechtfertigungsaufwand.
Hohes Volumen mit vorhersehbarer Last: Wer täglich 10.000 Dokumente verarbeitet, zahlt bei Cloud-APIs schnell 2.000–5.000 EUR pro Monat. Eine einmalige Hardware-Investition amortisiert sich in 12–18 Monaten.
Offline-Anforderungen: Produktionsanlagen, abgeschottete Netzwerke oder Standorte mit schlechter Anbindung — Self-hosting ist dann die einzige Option.
Compliance-Audits: Wenn Ihre Kunden, Versicherer oder Zertifizierungsstellen Nachweise über Datenresidenz verlangen, ist ein lokales Deployment die sauberste Antwort.

Self-hosting macht hingegen keinen Sinn für experimentelle Projekte, unregelmäßige Nutzung oder wenn das interne IT-Team keine Kapazität für Betrieb und Updates hat. Die ehrliche Gegenüberstellung folgt am Ende dieses Artikels.

Modellvergleich 2026: Llama, Mistral, Mixtral, Qwen, Phi im Überblick

Die Open-Weight-Modelle haben in den letzten 18 Monaten erheblich aufgeholt. Für die meisten Unternehmensanwendungen ist der Qualitätsunterschied zu proprietären Modellen in kontrollierten Aufgaben — Dokumentenextraktion, Klassifikation, strukturierte Ausgabe — klein geworden.

Modell	Lizenz	RAM (FP16)	Inference-Speed	DE-Qualität
Llama 3.3 70B	Llama 3 Community License (kommerziell nutzbar)	~140 GB (1x H100 oder 2x A100)	20–35 Token/s (A100)	Sehr gut — Multilingual-Training mit starkem DE-Anteil
Mistral Large	Mistral Research License (kommerziell: Mistral API)	~246 GB (nur Self-hosted via On-prem-Lizenz)	15–25 Token/s (2x A100)	Exzellent — Mistral ist französisch, starke EU-Sprachen
Mixtral 8x22B	Apache 2.0 (vollständig frei)	~87 GB aktiv (MoE: 141B gesamt, 39B aktiv)	30–50 Token/s (A100, aktive Expert-Auswahl)	Gut — solide für Fachtext, schwächer bei idiomatischem Deutsch
Qwen 2.5 72B	Qwen License (kommerziell nutzbar unter 100M MAU)	~144 GB (FP16), ~72 GB (Q4)	25–40 Token/s (A100)	Gut — primär Mandarin/Englisch, DE-Qualität steigt
Phi-4 (14B)	MIT License (vollständig frei)	~28 GB (FP16), ~8 GB (Q4)	60–120 Token/s (RTX 4090)	Überraschend gut für die Größe — ideal für schlanke Setups

Empfehlung für den Einstieg: Phi-4 auf einer einzelnen RTX 4090 ist der einfachste Weg, Self-hosting zu testen — ohne Mehrfach-GPU-Setup. Wer Produktionsqualität für Deutsch-Texte braucht, greift zu Llama 3.3 70B (quantisiert auf Q4 passt es auf 2x RTX 4090) oder Mistral Large (On-prem-Lizenz erforderlich).

Eine Einordnung dieser Modelle gegenüber proprietären Alternativen wie GPT-4o, Claude und Gemini bietet unser LLM-Vergleich für Unternehmen.

Hardware-Optionen: Was kostet Self-hosting wirklich?

Die Hardware-Wahl bestimmt, welche Modelle laufen, wie schnell und zu welchen Gesamtkosten. Drei realistische Setups für den Mittelstand:

Option 1: Workstation mit RTX 4090 — ca. 3.000 EUR

Eine Single-GPU-Workstation mit NVIDIA RTX 4090 (24 GB VRAM) ist der günstigste Einstieg. Phi-4 läuft nativ, Llama 3.3 70B im 4-Bit-Quantisierungsformat (Q4) passt mit 40–42 GB nicht vollständig auf die GPU — ein Teil des Modells liegt dann im RAM, was die Geschwindigkeit auf 5–10 Token/s drosselt. Für nicht-zeitkritische Batch-Verarbeitung (Dokumentenextraktion über Nacht) ist das akzeptabel.

Für latenzempfindliche Anwendungen wie Echtzeit-Assistenten reicht eine einzelne RTX 4090 nur für Modelle bis 13B (z. B. Phi-4, Mistral 7B). Zwei RTX 4090 in einem System (ca. 5.000–6.000 EUR) lassen Llama 3.3 70B Q4 vollständig im VRAM laufen — bei 20–30 Token/s.

Option 2: Mac Studio Cluster — ca. 14.000 EUR

Apple Silicon ist im Energie-Effizienz-Verhältnis ungeschlagen: Ein Mac Studio M3 Ultra mit 192 GB Unified Memory läuft Llama 3.3 70B in voller FP16-Qualität ohne Quantisierungsverluste. Zwei Maschinen im Cluster (je ~7.000 EUR) bieten Redundanz und Parallelverarbeitung.

Der Vorteil: kein Lüfter-Lärm, niedriger Stromverbrauch (~150W pro Gerät), Integration in macOS-Netzwerke. Der Nachteil: CUDA-exklusive Frameworks (vLLM in seiner Hochleistungsform) laufen nicht nativ auf Apple Silicon — Sie sind auf llama.cpp und MLX angewiesen, was bei bestimmten Modell-Architekturen Einschränkungen bringt.

Option 3: Hetzner GPU-Server — ca. 400 EUR/Monat

Hetzner Cloud bietet GPU-Instanzen (GX2, powered by NVIDIA A100 80GB) mit deutschen Rechenzentren in Nürnberg und Helsinki. Daten verlassen die EU nicht, der AVV ist über Hetzners Standardvertrag abgedeckt. 400 EUR/Monat (Stand 2026) kaufen eine A100 80GB-Instanz — ausreichend für Llama 3.3 70B in voller Qualität bei 20–30 Token/s.

Das Modell liegt auf dem Server, Anfragen gehen über Ihr VPN ins Hetzner-Rechenzentrum — datenschutzrechtlich ist das weit sauberer als ein US-Cloud-API-Call. Wichtig: Das Modell selbst auf dem Server zu halten ist DSGVO-konform, wenn Hetzner als Auftragsverarbeiter agiert (AVV abschließen) und keine Logs an Dritte weitergegeben werden.

Software-Stack: Ollama, vLLM und LM Studio

Die Wahl des Inference-Frameworks bestimmt, wie komfortabel der Betrieb und wie hoch der Durchsatz ist.

Ollama — für den schnellen Einstieg

Ollama ist der einfachste Weg, ein Modell lokal zu starten. Ein Befehl, und das Modell läuft:

ollama pull llama3.3:70b
ollama run llama3.3:70b

Ollama startet automatisch einen OpenAI-kompatiblen API-Endpunkt auf Port 11434. Jede Anwendung, die die OpenAI-API kennt, kann ohne Code-Änderungen umgeleitet werden:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama3.3:70b", "messages": [{"role": "user", "content": "Zusammenfassung des Vertrags..."}]}'

Schwäche: Ollama ist auf Single-Request-Verarbeitung optimiert. Bei gleichzeitigen Anfragen mehrerer Nutzer sinkt der Durchsatz erheblich. Für Produktions-Setups mit mehr als 5 gleichzeitigen Nutzern empfiehlt sich vLLM.

vLLM — für Produktions-Deployments

vLLM ist der Standard für High-Throughput-Inference auf NVIDIA-GPUs. PagedAttention und Continuous Batching erhöhen den Durchsatz gegenüber naivem Inference um den Faktor 10–24.

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 2 \
  --max-model-len 32768

`--tensor-parallel-size 2` verteilt das Modell auf zwei GPUs. Der Endpunkt ist OpenAI-kompatibel auf Port 8000. Für Kubernetes-Deployments gibt es offizielle Helm Charts.

LM Studio — für Nicht-Entwickler

LM Studio bietet eine grafische Oberfläche für Windows und macOS. Modelle werden per Download installiert, ein lokaler API-Server lässt sich per Klick starten. Für IT-Abteilungen ohne Python-Erfahrung ist das der pragmatischste Einstieg — besonders auf dem Mac Studio Cluster.

Für Produktions-Deployments mit mehreren gleichzeitigen Nutzern reicht LM Studio nicht aus — der Fokus liegt auf Einzelnutzung.

DSGVO-Vorteile von Self-hosted LLMs

Der entscheidende datenschutzrechtliche Vorteil liegt auf der Hand: Wenn das Modell auf Ihrer Hardware läuft, verlassen keine Daten das Unternehmen. Das eliminiert mehrere Compliance-Probleme auf einen Schlag:

Kein Drittland-Transfer: Kein API-Call in die USA, kein Privacy Shield, kein Standardvertragsklausel-Puzzlespiel. Die Daten bleiben in Deutschland — oder im EU-Rechenzentrum Ihrer Wahl.
Kein Modelltraining mit Ihren Daten: Cloud-Anbieter nutzen API-Anfragen manchmal für Modellverbesserungen (je nach Vertragslage). Beim lokalen Modell ist das strukturell ausgeschlossen.
Vollständige Protokollkontrolle: Sie bestimmen, was geloggt wird — und was nicht. Das vereinfacht die Erfüllung von Auskunfts- und Löschanfragen nach Art. 15–17 DSGVO erheblich.
Kein Datenleck durch Dritte: Sicherheitsvorfälle beim Cloud-Anbieter betreffen Ihre Daten nicht, wenn diese das Haus nie verlassen haben.

Für Branchen mit besonders strengen Anforderungen — Steuerberatung, Medizin, Rechtsanwaltskanzleien — ist Self-hosting oft die einzige praktikable Option. Wie diese Berufsgruppen KI rechtssicher einsetzen, beschreiben wir im Artikel KI für Steuerberater.

Die rechtliche Gesamtlage zu KI und Compliance (DSGVO + EU AI Act) beleuchtet unser Artikel zu KI-Compliance, DSGVO und AI Act.

Trade-Offs: Was Self-hosting kostet — ehrlich bilanziert

Self-hosting ist kein Freifahrtschein. Wer diese Entscheidung nüchtern trifft, muss folgende Kosten einkalkulieren:

Dimension	Self-hosted	Cloud-API
Modellqualität	Open-Weight-Modelle: 85–95 % der proprietären Qualität bei Standardaufgaben	GPT-4o, Claude Sonnet — State-of-the-Art, wird laufend verbessert
Anfangskosten	3.000–14.000 EUR Hardware (oder 0 EUR bei Cloud-Self-hosted)	Keine — nutzungsbasiert ab dem ersten Token
Laufende Kosten	Strom (~0,30 EUR/kWh), Wartung, IT-Zeit	API-Kosten skalieren linear mit Nutzung
Betriebsaufwand	Modell-Updates, GPU-Treiber, Sicherheitspatches — intern	Zero-Maintenance — der Anbieter übernimmt alles
Latenz	Niedrig im LAN, höher bei Remote-Inferenz	Netzwerklatenz zum Cloud-Endpunkt
Neue Modelle	Manuelles Update und Test erforderlich	Sofort verfügbar — oft ohne API-Änderung
DSGVO	Maximale Kontrolle — kein Drittland-Transfer	Möglich (EU-Region + AVV), aber aufwändiger

Faustformel: Wenn Ihr monatliches Cloud-API-Budget 1.500 EUR überschreitet und die Datenmenge stabil ist, rechnet sich eine On-Premise-GPU in unter 18 Monaten. Darunter ist Cloud fast immer wirtschaftlicher.

Wann Cloud trotzdem die bessere Wahl ist

Self-hosting ist mächtig — aber nicht für jeden Fall richtig. Cloud-APIs sind überlegen, wenn:

Spitzenqualität gefragt ist: Bei komplexem Reasoning, mehrstufigen Agenten oder multimodalen Aufgaben liefern GPT-4o und Claude Sonnet noch bessere Ergebnisse als die besten Open-Weight-Modelle. Für einen Vergleich der Stärken: ChatGPT vs Claude vs Gemini.
Das Nutzungsvolumen unvorhersehbar ist: Schwankende Last ohne Mindestauslastung macht Hardware-Investitionen unwirtschaftlich.
Keine IT-Kapazität vorhanden ist: Ein Self-hosted LLM braucht jemanden, der Updates einspielt, Fehler behebt und die Infrastruktur überwacht. Ohne dieses Know-how ist Cloud günstiger — auch wenn man die IT-Kosten einrechnet.
MCP-Integration gewünscht ist: Das Model Context Protocol ermöglicht standardisierte Tool-Integration für KI-Agenten. Proprietäre Modelle (besonders Claude) unterstützen MCP nativ und bieten ein breiteres Ökosystem an fertigen Konnektoren. Mehr dazu in unserem Artikel zu MCP und KI-Agenten.
Firmenwissen dynamisch eingebunden werden soll: RAG-Systeme funktionieren mit Self-hosted Modellen, aber die Qualität der Retrieval-Integration ist bei guten Cloud-Modellen oft höher. Details dazu im Artikel RAG für Unternehmenswissen.

Die häufigste sinnvolle Strategie für 2026: Hybrid. Unkritische Aufgaben laufen auf dem lokalen Modell (Klassifikation, Standardtexte, interne Suche), sensible oder komplexe Aufgaben auf dem Cloud-Modell über eine EU-konforme Schnittstelle.

Fazit: Self-hosting als DSGVO-Strategie — nicht als Ersatz für Cloud

Self-hosted LLMs sind 2026 produktionsreif für den Mittelstand. Phi-4 auf einer RTX 4090, Llama 3.3 70B auf Hetzner GPU oder ein Mac Studio Cluster bieten jeweils tragfähige Setups — je nach Budget, Anforderungen und IT-Ressourcen. Die DSGVO-Vorteile sind real und messbar: keine Drittland-Übermittlung, volle Protokollkontrolle, kein Risiko durch Anbieter-Sicherheitsvorfälle.

Gleichzeitig ist Self-hosting kein Silbergeschoss. Wer nicht die IT-Kapazität hat, ein Modell zu betreiben, fährt mit einer DSGVO-konformen Cloud-Lösung (AWS Bedrock, Azure OpenAI EU) besser — und günstiger. Die Entscheidung gehört in eine sorgfältige Analyse Ihrer konkreten Anforderungen, nicht in eine ideologische Diskussion über Cloud vs. On-Premise.

30-Minuten DSGVO-LLM-Assessment

Welches Modell passt zu Ihren Anforderungen? Welche Hardware rechnet sich — und wann ist Cloud die bessere Wahl? In einem kostenlosen 30-Minuten-Call analysieren wir Ihre Situation und geben eine klare Empfehlung.

Assessment-Call vereinbaren Alle KI-Beratungspakete

Nächster Schritt

Wie reif ist Ihr Unternehmen für KI-Automatisierung?

Der kostenlose KI-Readiness-Check zeigt Ihnen in wenigen Minuten, wo das größte Automatisierungspotenzial liegt.

Zum KI-Readiness-Check