Lokale KI im Smart Home ist eines der Themen, die mich in letzter Zeit wirklich beschäftigt haben. In den Kommentaren kam immer wieder die Frage, ob man das alles nicht auch komplett ohne Cloudanbindung hinbekommen kann, ohne Daten nach außen zu schicken, ohne Abo, ohne Abhängigkeit von irgendwelchen externen Diensten. Die Antwort ist ja, und ich zeige dir, wie das geht.
Das Ganze funktioniert mit Ollama, einem Tool das Large Language Models lokal auf deiner Hardware betreibt, und der dazugehörigen Home Assistant Integration. Am Ende kannst du den Assist in Home Assistant mit einer lokalen KI verbinden, Geräte per Sprache oder Text steuern, Temperaturen abfragen, Einkaufslisten befüllen und vieles mehr. Alles offline, alles bei dir zu Hause.
Die richtige Hardware ist entscheidend
Bevor du irgendwas installierst, musst du wissen, was du dir dabei vorstellst. Nicht jede Hardware ist für lokale LLMs geeignet, und das merkt man ziemlich schnell, wenn man die falschen Erwartungen hat.
Ich nutze für dieses Setup einen Mac Mini M4 mit 16 GB Arbeitsspeicher. Der verbraucht im Idle so 6 bis 7 Watt, läuft rund um die Uhr und macht dabei keine Geräusche. Selbst unter Last hört man die Lüfter nicht. Für ein Always-on-Gerät ist das eine wahnsinnig praktische Kombination. Einen Mac Mini M4 findest du über den Affiliate-Link in der Beschreibung.
Alternativ kannst du einen Raspberry Pi 5 oder einen Intel NUC nehmen. Der Raspberry Pi 5 mit 8 GB RAM ist grenzwertig für die meisten sinnvollen Modelle, funktioniert aber mit sehr kleinen Modellen noch. Wenn du vorhast, das wirklich täglich zu nutzen, würde ich aber zu etwas mehr Arbeitsspeicher raten. Auf der Guide-Seite findest du eine Tabelle, die Hardware und Modelle gegenüberstellt. Die hilft dir bei der Entscheidung.
Parameter, Token und Kontext kurz erklärt
Es gibt ein paar Begriffe, die dir beim Thema LLMs immer wieder begegnen. Die kurze Version, damit wir alle auf dem gleichen Stand sind.
Die Parameterzahl steht bei Modellen als 3B, 8B oder 14B dahinter. Das B steht für Milliarden und gibt an, wie viele Verbindungen das Modell gelernt hat. Mehr Parameter bedeutet in der Regel schlaueres Modell, aber auch mehr Arbeitsspeicher und langsamere Antworten. Ein 3B-Modell reicht für einfache Aufgaben, ein 8B-Modell macht schon deutlich komplexere Sachen.
Token sind keine ganzen Wörter, sondern kleinere Fragmente. Das Wort "Wohnzimmer" sind zum Beispiel zwei bis drei Token. Die Geschwindigkeit eines Modells misst man in Token pro Sekunde. Ab ungefähr 15 Token pro Sekunde fühlt sich eine Antwort flüssig an, darunter wird es zäh.
Das Context Window bestimmt, wie viel Text das Modell gleichzeitig im Kopf behalten kann. 8.000 Token sind ungefähr 6.000 Wörter. Wenn der Kontext voll ist, vergisst das Modell den Anfang des Gesprächs. Für Home Assistant reichen 8k meistens aus, solange du nicht zu viele Entitäten freigibst.
Dann gibt es noch das Tool Calling oder Function Calling. Das ist der entscheidende Punkt für Home Assistant: Nicht alle Modelle können nicht nur Text antworten, sondern auch Funktionen aufrufen, also Lichter schalten, Temperaturen abfragen und so weiter. Für den Einsatz in Home Assistant brauchst du zwingend ein Modell, das das zuverlässig beherrscht.
Das passende Modell auswählen
Auf der Ollama Model Library findest du eine wahnsinnig große Auswahl. Für den Einsatz in Home Assistant habe ich ein paar Modelle getestet und die Unterschiede sind tatsächlich deutlich spürbar.
Ich habe denselben Prompt an vier verschiedene Modelle geschickt und die Ergebnisse verglichen. Das Gemma-4-4B-Modell hat 21 Sekunden gebraucht und dabei 20 Token pro Sekunde produziert. Das Qwen-3B-Modell war mit 9 Sekunden und 46 Token pro Sekunde deutlich schneller, dafür auf Taschenrechner-Niveau, was die Qualität angeht. Ein größeres Modell hat mit 34 Sekunden fast das Dreifache gebraucht.
Für den Alltag mit Home Assistant würde ich nicht das kleinstmögliche und nicht das größtmögliche nehmen. Ein 7B- oder 8B-Modell ist auf einem Mac Mini M4 mit 16 GB RAM ein guter Ausgangspunkt. Ich nutze aktuell das Qwen-3-8B-Modell, das trifft bei mir die richtige Balance zwischen Geschwindigkeit und Qualität. Was bei dir am besten funktioniert, musst du ein bisschen ausprobieren. Die Installation kostet nichts, du kannst so viele Modelle runterladen, wie deine Festplatte hergibt.
Einen Thinking-Mode gibt es bei manchen Modellen auch. Das Modell denkt dann erst intern nach, bevor es antwortet. Für komplexe Fragen kann das hilfreich sein, für Home Assistant ist es meistens unnötig und kostet nur Zeit. Wenn du ein Modell nutzt, das Thinking unterstützt, kannst du es per Parameter abschalten.
Ollama installieren
Die Installation von Ollama ist eigentlich relativ simpel. Du gehst auf ollama.com/download und lädst dir den Installer für dein Betriebssystem runter. Für macOS gibt es eine grafische App, für Linux und Raspberry Pi den Curl-Befehl, für Windows ebenfalls eine Installationsdatei.
Auf dem Mac geht das über Homebrew so:
brew install ollamaAuf dem Raspberry Pi oder einem Linux-System nimmst du diesen Befehl:
curl -fsSL https://ollama.com/install.sh | shNach der Installation lädst du dir dein erstes Modell. Für den Mac Mini M4 mit 16 GB RAM würde ich das empfehlen:
ollama pull qwen3:8bDas dauert einen Moment, weil die Modelle ein paar Gigabyte groß sein können. Wenn der Download durch ist, kannst du das Modell direkt im Terminal testen:
ollama run qwen3:8b --think=false "Schreib einen kurzen Text über Smart Home"Wenn du eine Antwort bekommst, funktioniert alles wie es soll.
Ollama im Netzwerk verfügbar machen
Home Assistant läuft bei den meisten auf einem anderen Gerät als Ollama. Damit die beiden miteinander reden können, muss Ollama Verbindungen aus dem Netzwerk annehmen. Standardmäßig hört Ollama nur auf localhost, also nur auf dem gleichen Gerät.
Auf macOS machst du das dauerhaft so, dass es auch nach einem Neustart noch funktioniert:
LALLAMA_HOST=0.0.0.0 ollama serveWenn du das nur kurz testen willst, reicht der einfachere Weg. Für den dauerhaften Betrieb ist die Variante mit dem Launchd-Service auf macOS besser, die findest du in der Anleitung auf alles-automatisch.de Schritt für Schritt erklärt.
Ob das Ganze funktioniert, kannst du von einem anderen Gerät im Netzwerk aus testen. Du brauchst dazu die IP-Adresse deines Ollama-Rechners. Die findest du in deinen Netzwerkeinstellungen oder über ip addr im Terminal. Dann führst du von einem anderen Rechner diesen Befehl aus:
curl http://DEINE-IP:11434/api/tagsWenn du eine JSON-Antwort mit deinen installierten Modellen bekommst, ist Ollama im Netzwerk erreichbar und du kannst weitermachen.
Ollama in Home Assistant einrichten
Jetzt verbinden wir das Ganze. In Home Assistant gehst du auf Einstellungen, dann Geräte und Dienste, dann Integrationen hinzufügen und suchst nach Ollama. Du bekommst eine Eingabemaske für die URL deines Ollama-Servers.
Die URL trägst du in diesem Format ein:
http://DEINE-IP:11434Einen API-Schlüssel brauchst du nicht, solange Ollama ohne Authentifizierung läuft. Das ist für ein rein lokales Setup völlig in Ordnung, weil von außen ohnehin niemand rankommt.
Nach dem Einrichten findest du unter den Integrationseinstellungen von Ollama den Punkt Ollama Conversation. Dort wählst du dein Modell aus, also zum Beispiel qwen3:8b, und gibst dem Assistenten eine Anweisung. Ich nutze aktuell diese:
Du bist ein Smart Home Assistent für Home Assistant. Du antwortest kurz, präzise und auf Deutsch. Nutze ausschließlich die bereitgestellten Tools. Erfinde keine eigenen. Wenn du etwas nicht weißt, sage es ehrlich.Dann setzt du noch den Haken, dass der Assistent Home Assistant steuern darf, und passt das Kontextfenster an. Ich habe das bei mir auf 32768 gesetzt, was der Maximalwert für dieses Modell ist. Wenn du wenig Arbeitsspeicher hast oder viele Entitäten freigibst, kannst du den Wert verringern.
Anschließend gehst du in den Home Assistant Assist, klickst oben auf den Assistenten-Namen und wählst Ollama aus. Dann kannst du direkt loslegen.
Was du damit machen kannst
Ich habe ein paar Sachen ausprobiert, die im Alltag tatsächlich Sinn machen. Statusabfragen funktionieren gut: Wie warm ist es draußen? Wie viele Leuchten sind eingeschaltet? Das klappt zuverlässig, weil Home Assistant dem Modell die nötigen Informationen bereitstellt.
Geräte steuern geht auch. Ich habe das Licht im Esszimmer ein- und ausgeschaltet per Texteingabe und per Sprache. Das hat beim zweiten Versuch problemlos funktioniert. Beim ersten Mal war das Modell noch ein bisschen überfordert, was an der Kombination aus kleinem Modell und zu großem Kontext lag.
Was mich ehrlich gesagt am meisten überrascht hat: die Einkaufslistenfunktion. Du sagst einfach "Setze Bier auf die Einkaufsliste" und er macht es. Das klingt simpel, aber wenn du das per Sprache auf dem Smartphone nutzt, ist das wirklich praktisch. So wie man es von Alexa oder Siri kennt, nur eben komplett lokal.
Was du im Hinterkopf behalten solltest: Wenn du zu viele Entitäten freigibst oder das Kontextfenster zu klein setzt, bekommst du manchmal seltsame Antworten. Ich habe das selbst erlebt, du bekommst dann einfach ein kryptisches JSON zurück statt einer echten Antwort. Das ist kein Fehler, sondern ein Hinweis darauf, dass das Modell an seine Grenzen gestoßen ist. Entweder Kontextfenster vergrößern, weniger Entitäten freigeben oder ein größeres Modell nehmen.
Als Alternative zu Ollama gibt es noch LM Studio, das eine grafische Oberfläche mitbringt und ebenfalls eine OpenAI-kompatible API anbietet, über die Home Assistant genauso angebunden werden kann. Für Einsteiger ist das vielleicht ein bisschen zugänglicher, Ollama ist aber aus meiner Sicht für den Dauerbetrieb die sauberere Lösung.
Wenn du noch Fragen hast oder irgendwas bei dir nicht funktioniert, schau gerne in das Community Forum. Da sammeln sich die Fragen und Lösungen und meistens hat da schon jemand das gleiche Problem gehabt. Ich kann das nur empfehlen.
