Lokale KI Im Unternehmen

Vom Chatfenster zur Systemkomponente

Die Situation

Unternehmen setzen KI ein. Die Großen kaufen Microsoft Copilot-Lizenzen und rollen sie unternehmensweit aus. Die Mittleren nutzen ChatGPT, manche über Team-Accounts, viele ohne klaren Rahmen. Überall laufen Prompts. Überall gibt KI Antworten.

Ich selbst bin keine Ausnahme. Die Use Cases auf dieser Website, E-Mails zu Jira-Tickets, Sprachaufnahmen zu Confluence-Seiten, CEO-Statusberichte aus mehreren Systemen, nutzen alle externe KI-Schnittstellen. Jede Anfrage verlässt die eigene Domäne und landet auf einem Server eines externen Anbieters.

Das habe ich bewusst so gebaut, weil es funktioniert. Aber es ist ein Kompromiss, den ich zunehmend kritisch sehe.

Das Problem

KI wird in den meisten Unternehmen als Chatfenster genutzt. Die zwei dominanten Anwendungsfälle sind Fragen beantworten und Texte schreiben. Beides nützlich. Aber beides bringt Unternehmen selten wirklich nach vorne.

Was ich in Unternehmen beobachte ist, dass KI selten in Prozesse eingebaut wird. Stattdessen wird sie daneben gestellt. Mitarbeiter haben jetzt ein KI-Tool. Aber der Prozess dahinter ist derselbe geblieben. Lizenzen verteilt, Schulung gebucht, fertig. Was niemand gefragt hat: Welcher Prozess soll sich dadurch grundlegend verändern?

Und parallel läuft etwas im Hintergrund, das die meisten Entscheider nicht explizit entschieden haben. Jede Eingabe mit Unternehmensdaten landet auf der Infrastruktur eines externen Anbieters. Kundennamen, Projektnummern, interne Dokumente, alles. Das strukturelle Risiko habe ich im letzten Artikel zur DSGVO ausführlich beschrieben. Es lässt sich vertraglich nicht vollständig auflösen.

Die Ursache

Die zwei Probleme hängen zusammen und blockieren sich gegenseitig.

Weil Datenschutz schwierig ist, wird KI vorsichtig eingesetzt. Nur allgemeine Anfragen, keine sensiblen Daten, keine tiefen Integrationen. Das führt dazu, dass KI nie wirklich Teil des Systems wird. Sie bleibt ein Hilfsmittel am Rand.

Und weil KI am Rand bleibt, rechtfertigt sich der Aufwand für echte Prozessintegration nicht. Wozu einen Workflow komplett neu denken, wenn am Ende ein externes Tool angehängt wird, das Datenschutzfragen aufwirft?

Das Ergebnis ist ein Kreislauf. Externe KI ist leistungsfähig, aber datenschutzkritisch. Lokale KI ist datenschutzkonform, gilt aber als kompliziert. Also landet man beim sichersten Kompromiss: ChatGPT für allgemeine Fragen, intern keine tiefen Integrationen.

Der Haken: Hardware, Performance und was sie wirklich kostet

Die häufigste Gegenfrage, wenn ich von lokaler KI erzähle: Ist das überhaupt performant genug?

Meine erste Analyse zeigt: Es kommt stark auf die eingesetzte Hardware an. Und das ist gleichzeitig die größte Stärke und die größte Einschränkung lokaler KI.

Mit einer dedizierten Grafikkarte erreichen lokale Modelle in unabhängigen Benchmarks 30 bis über 100 Tokens pro Sekunde. Zum Vergleich: Ein Mensch liest etwa 4 bis 5 Tokens pro Sekunde. Für Hintergrundautomatisierungen, die E-Mails verarbeiten, Dokumente indexieren oder Berichte erstellen, ist das ausreichend. Für rein CPU-basierte Setups ohne Grafikkarte sinkt die Geschwindigkeit auf 2 bis 20 Tokens pro Sekunde, was für Batch-Prozesse noch funktioniert, für interaktiven Chat aber spürbar langsamer ist als ChatGPT [1, 2].

Die Hardwarekosten sind dabei höher als oft dargestellt. Ein einsatzfähiger lokaler KI-Server für kleine Teams liegt laut aktuellen Markterhebungen bei 2.500 bis 10.000 Dollar für die reine Hardware [3]. Bei produktionstauglichen Setups mit Redundanz, echtem Servergehäuse und ausreichend Leistungsreserven ist der obere Bereich realistischer. Hinzu kommen laufende Stromkosten: Ein dauerhaft betriebener GPU-Server mit rund 300 Watt Dauerverbrauch kostet bei deutschen Strompreisen von ca. 0,30 Euro pro Kilowattstunde rund 800 Euro pro Jahr [eigene Berechnung]. Dazu kommt die Frage, ob der bestehende Serverraum ausreichend klimatisiert ist. Diese Kosten müssen bei jeder ehrlichen Wirtschaftlichkeitsrechnung berücksichtigt werden.

Ich werde in einem späteren Artikel dieser Serie genauer auf Hardware-Szenarien eingehen, konkrete Konfigurationen durchrechnen und meine eigenen Erfahrungen beim Aufsetzen eines lokalen Systems teilen. Was jetzt schon klar ist: Lokale KI ist keine Frage von „ob“, sondern von „womit und für welchen Zweck“.

Was externe KI kostet: eine ehrliche Rechnung

GPT-4o, derzeit eines der meistgenutzten leistungsfähigen KI-Modelle, kostet laut offizieller OpenAI-Preisseite 2,50 Dollar pro Million Input-Tokens und 10 Dollar pro Million Output-Tokens [4]. Ein Token entspricht ungefähr 0,75 Wörtern.

Für ein Unternehmen, das täglich 500 E-Mails mit durchschnittlich 300 Wörtern automatisiert analysiert und verarbeitet, entstehen schnell 150 bis 400 Dollar monatlich, nur für diesen einen Workflow [eigene Berechnung auf Basis der OpenAI-Preise]. Skaliert man das auf mehrere Prozesse und 20 bis 30 aktive Nutzer, liegt man bei 500 bis 1.500 Dollar im Monat. Dazu kommt bei vielen Unternehmen die Copilot-Lizenz, die pro Nutzer und Monat zusätzlich zu den bestehenden Microsoft-365-Kosten berechnet wird.

Lokale KI hat dafür einmalige Hardware- und Einrichtungskosten und danach so gut wie nichts mehr, abgesehen von Strom und gelegentlichem Wartungsaufwand. Der Break-even gegenüber externen API-Kosten liegt je nach Nutzungsintensität zwischen 12 und 24 Monaten. Eine detaillierte Beispielrechnung für verschiedene Unternehmensgrößen folgt im nächsten Artikel dieser Serie.

Wo lokale KI als Systemkomponente wirkt: konkrete Beispiele

Das ist der Teil, der in den meisten KI-Diskussionen fehlt. Nicht das Chatfenster, sondern der eingebettete Prozess.

Protokoll- und Dokumentenarchiv befragen: Ein Mitarbeiter fragt, was im Meeting vom 3. März zu Lieferant X entschieden wurde. Ohne KI: 20 Minuten suchen, vielleicht nichts finden. Mit einem lokalen Wissensspeicher aus drei Jahren Protokollen: Antwort in Sekunden, mit Quellenangabe. Kein Byte dieser Protokolle verlässt das Netzwerk.

E-Mail-Triage mit sensiblen Daten: Eingehende Kundenanfragen werden automatisch analysiert, kategorisiert und priorisiert ins System übertragen. Exakt das, was ich in meinem Email-to-Jira-Use-Case gebaut habe, aber ohne dass Kundendaten das Unternehmen verlassen.

Onboarding-Assistent: Neue Mitarbeiter fragen nach internen Abläufen, Ansprechpartnern oder Prozessverantwortlichen. Die KI kennt alle internen Dokumente. Kein Ticket an HR, kein Suchen im Intranet.

Technische Dokumentation: Servicetechniker fragen die KI zu Fehlercodes oder Wartungsintervallen. Die Antwort kommt aus den eigenen Handbüchern, nicht aus dem Internet oder dem allgemeinen Modell-Training.

Vertragsprüfung: Vertrieb prüft, welche Konditionen in früheren Verträgen vereinbart wurden. Inhalte und Kundendaten bleiben vollständig im System.

Welche Erkenntnis können wir daraus ziehen?

Lokale KI ist keine fertige Unternehmens-KI-Lösung, die man einfach einschaltet. Sie ist eine architektonische Option, die für bestimmte Unternehmen und bestimmte Anforderungen die bessere Wahl sein kann. Ob und wann das sinnvoll ist, hängt von drei Fragen ab: Wie sensibel sind die Daten? Wie hoch ist das Nutzungsvolumen, das durch Token-Kosten teuer wird? Und ist die IT-Kapazität vorhanden, eine eigene Infrastruktur zu betreiben?

	Externe KI (Cloud)	Lokale KI
Modellqualität	Sehr hoch	Abhängig von Hardware und Modellgröße [5, 6]
Datenschutz	Vertraglich abgesichert, strukturelles Restrisiko bleibt	Vollständig im eigenen Netzwerk
Initialkosten	Gering	Hoch (Hardware, Einrichtung) [3]
Laufende Kosten	Nutzungsabhängig, skaliert mit Volumen [4]	Strom, Wartung, IT-Aufwand
Energiekosten	Beim Anbieter (für Nutzer unsichtbar)	Sichtbar, ~800 Euro/Jahr pro Server [eigene Berechnung]
Performance	Sehr schnell	Ausreichend bis schnell, GPU erforderlich [1, 2]
Einrichtungsaufwand	Gering	Mittel bis hoch
Kontrolle und Unabhängigkeit	Beim Anbieter	Beim Unternehmen

Genau das beleuchte ich in dieser Serie. Ich setze lokale KI dabei selbst auf, baue eigene Use Cases und schreibe auf, was funktioniert und was nicht.

Quellen

[1] Karl Kratz: Ollama Performance-Benchmark (GPU vs. CPU). https://karlkratz.de/ki-seminar-ollama

[2] LocalLLM.in: Ollama VRAM Requirements: Complete 2026 Guide to GPU Memory for Local LLMs. https://localllm.in/blog/ollama-vram-requirements-for-local-llms

[3] Compute Market: Local AI Server for Business 2026 — Build Guide + ROI. https://www.compute-market.com/blog/local-ai-server-for-business-2026

[4] OpenAI: Offizielle API-Preisseite. https://openai.com/de-DE/api/pricing/

[5] Till Freitag: Open-Source LLMs Compared 2026. https://till-freitag.com/en/blog/open-source-llm-comparison

[6] Contabo: Best Open Source LLMs in 2026. https://contabo.com/blog/open-source-llms/

Letzter Abruf: 14.05.2026

Kommt Ihnen das bekannt vor?

In vielen Unternehmen entstehen genau hier unnötige Zeitverluste und strukturelle Probleme. Oft bleibt das lange unbemerkt, bis Projekte ins Stocken geraten.