Lokale KI im Unternehmen

Was "lokal" eigentlich bedeutet

Die Situation

Lokale KI klingt gut. Daten bleiben im Unternehmen, kein Cloud-Risiko, volle Kontrolle. Soweit die Theorie aus Artikel 1 dieser Serie.

Aber was bedeutet „lokal“ eigentlich konkret? Was läuft da, wo läuft es, und was braucht man dafür wirklich?

Das sind die Fragen, die zwischen Interesse und Entscheidung stehen. Und solange sie unbeantwortet bleiben, bleibt lokale KI ein vages Konzept statt einer echten Option.

Das Problem

Der Begriff „lokal“ erzeugt bei den meisten Entscheidern dasselbe Bild: ein Rechenzentrum, eine IT-Abteilung mit zehn Leuten, ein Projekt, das ein Jahr dauert und ein Budget braucht, das erst genehmigt werden muss.

Dieses Bild ist falsch. Aber ohne ein richtiges Bild trifft man keine Entscheidung. Man schiebt das Thema auf, wartet ab, oder verlässt sich weiter auf Cloud-Lösungen, deren Datenschutzprobleme bekannt sind.

Die Ursache

Der verfügbare Content zu lokaler KI richtet sich fast ausschließlich an Entwickler. Schritt-für-Schritt-Anleitungen, Code-Beispiele, technische Vergleiche. Das ist nützlich für Menschen, die es aufsetzen. Für Entscheider, die erst verstehen müssen, was sie überhaupt bewerten sollen, hilft es nicht.

Das Konzept dahinter ist aber gar nicht schwer zu verstehen. Es braucht nur die richtigen Worte.

Welche Erkenntnis können wir daraus ziehen?

Lokale KI besteht im Kern aus drei Bausteinen. Wer diese drei Bausteine versteht, hat die Grundlage für alle weiteren Entscheidungen.

Baustein 1: Das Modell

Das Modell ist das, was denkt. Es ist die eigentliche KI, die Sprache versteht, Fragen beantwortet und Texte generiert.

Bei ChatGPT ist es GPT-4o, das auf Servern von OpenAI in den USA läuft. Bei lokaler KI ist es ein Open-Source-Modell, das auf der eigenen Hardware läuft. Der entscheidende Unterschied: Das Modell und alle Daten, die es verarbeitet, verlassen das eigene Netzwerk nicht.

Open-Source-Modelle sind frei verfügbar und werden von großen Technologieunternehmen entwickelt und veröffentlicht. Llama kommt von Meta, Mistral von einem französischen Unternehmen mit EU-Infrastruktur, Qwen von Alibaba, Phi von Microsoft. Diese Modelle sind in verschiedenen Größen verfügbar, gemessen in Parametern. Ein 7-Milliarden-Parameter-Modell läuft auf bescheidener Hardware und eignet sich für einfache Aufgaben. Ein 70-Milliarden-Parameter-Modell braucht deutlich mehr Ressourcen, liefert aber Ergebnisse, die mit kommerziellen Modellen vergleichbar sind.

Welches Modell für welchen Einsatzzweck geeignet ist, behandle ich in Artikel 5 dieser Serie ausführlich.

Baustein 2: Die Laufzeitumgebung

Ein Modell ist zunächst nur eine große Datei. Es braucht eine Software, die es ausführt, verwaltet und über eine Schnittstelle zugänglich macht.

Ollama ist dafür heute der De-facto-Standard. Es ist eine quelloffene Anwendung, die Modelle lokal ausführt und dabei eine Schnittstelle bereitstellt, die identisch zur OpenAI-API aufgebaut ist. Das bedeutet: Wer heute n8n, LangChain oder andere Automatisierungstools mit ChatGPT verbunden hat, kann diese in vielen Fällen mit wenigen Anpassungen auf Ollama umstellen. Die Logik bleibt dieselbe. Die Daten bleiben intern.

Ollama ist aber nur der Kern. Ein vollständiger lokaler KI-Stack für den Unternehmenseinsatz besteht aus mehreren Komponenten, die zusammenarbeiten: dem Modell selbst, einer Oberfläche für Mitarbeiter, einem System für die Verarbeitung interner Dokumente und einer Automatisierungsebene, die KI in bestehende Prozesse einbindet. Wie diese Komponenten zusammenhängen und was ein RAG-System dabei leistet, ist Thema von Artikel 4 dieser Serie.

Baustein 3: Die Hardware

Hier liegt das größte Missverständnis. Lokale KI braucht kein Rechenzentrum.

Was sie braucht, hängt davon ab, wofür sie eingesetzt wird und wie viele Menschen gleichzeitig damit arbeiten. Ein einzelner Mitarbeiter, der lokale KI für einfache Aufgaben nutzt, kommt mit einem normalen Bürorechner aus. Ein Unternehmen mit 20 Mitarbeitern, das KI-gestützte Workflows produktiv betreiben will, braucht eine stabilere Grundlage.

Die wichtigste Hardware-Entscheidung dreht sich um die Grafikkarte. Lokale KI-Modelle laufen auf Grafikkarten deutlich schneller als auf normalen Prozessoren. Eine dedizierte Grafikkarte mit ausreichend Videospeicher ist für den produktiven Betrieb keine Option, sondern eine Voraussetzung. Welche Konfigurationen für welche Unternehmensgrößen realistisch sind und was sie kosten, behandle ich in Artikel 6 dieser Serie.

Test versus Produktion: ein wichtiger Unterschied

Es gibt einen Unterschied, den man kennen muss, bevor man investiert.

Lokale KI lässt sich auf einem normalen Rechner testen. Das ist sinnvoll und empfehlenswert, um zu verstehen, wie das System funktioniert, und um erste Use Cases zu validieren. Dieser Testbetrieb ist kein Produktivsystem.

Für den dauerhaften Betrieb im Unternehmen, mit mehreren Nutzern, stabiler Performance und IT-Sicherheit, braucht es eine andere Grundlage. Die Technologie ist dieselbe. Aber die Anforderungen an Stabilität, Verfügbarkeit, Sicherheit und Wartung sind andere.

Wer das von Anfang an einplant, vermeidet eine häufige Falle: lokale KI im Test zu erleben, zu unterschätzen was der Schritt in den Produktivbetrieb bedeutet, und dann entweder zu scheitern oder mehr zu investieren als geplant.

Eigene Hardware oder VPS: die Grundsatzentscheidung

Für den Produktivbetrieb gibt es zwei realistische Wege. Beide haben ihre Berechtigung, und die Wahl hängt vom Unternehmen ab.

Eigener Server: Hardware im eigenen Serverraum oder Rechenzentrum. Volle Kontrolle über die Infrastruktur, keine laufenden Mietkosten, einmaliges Investment. Dafür ist IT-Kompetenz für Betrieb, Updates und Sicherheit erforderlich. Sinnvoll für Unternehmen, die bereits eigene IT-Infrastruktur betreiben und die Anforderungen gut einschätzen können.

VPS bei einem deutschen Anbieter: Ein virtueller privater Server bei einem Anbieter mit Rechenzentren in Deutschland. Ich betreibe selbst einen VPS bei Hetzner, einem deutschen Anbieter, dessen Infrastruktur ausschließlich in Deutschland und Finnland steht. Die Daten verlassen das Land nicht, DSGVO-Compliance ist damit auf Infrastrukturebene gewährleistet. Kein Hardware-Kauf, kein eigener Serverraum, monatliche Kosten statt einmaligem Investment. Dafür gibt man einen Teil der direkten Kontrolle ab und teilt sich physische Hardware mit anderen Nutzern der Plattform.

Beide Wege sind DSGVO-konform umsetzbar, wenn die Konfiguration stimmt. Was dabei konkret zu beachten ist, behandle ich in einem späteren Artikel dieser Serie.

Die Entscheidung zwischen beiden Wegen hängt von drei Faktoren ab: Wie viel IT-Kapazität ist intern vorhanden? Wie dauerhaft ist der geplante Betrieb? Und wie hoch ist die Anforderung an vollständige physische Kontrolle über die Infrastruktur?

Was lokale KI in jedem Fall ist: eine Architektur aus drei Bausteinen, die man bewusst zusammensetzt. Modell, Laufzeitumgebung, Hardware. Wer diese drei Bausteine versteht, kann die richtigen Fragen stellen, bevor er investiert.

Im nächsten Artikel dieser Serie geht es um die Kosten: Was kostet lokale KI wirklich, mit konkreten Beispielrechnungen für verschiedene Unternehmensgrößen.

Kommt Ihnen das bekannt vor?

In vielen Unternehmen entstehen genau hier unnötige Zeitverluste und strukturelle Probleme. Oft bleibt das lange unbemerkt, bis Projekte ins Stocken geraten.