Ich beschäftige mich schon eine Weile damit, wie man Home Assistant mit einer lokalen KI verheiraten kann. Ohne Cloud, ohne Abo, ohne dass irgendwelche Daten das Haus verlassen. In letzter Zeit wurde ich immer wieder gefragt, ob ich das mal zeigen kann. Deswegen mache ich daraus eine kleine Reihe. Das hier ist Teil 1, und der dreht sich um die Frage, die am Anfang steht: Welche Hardware brauchst du überhaupt?
Was das Ganze können soll
Ich habe mir in meiner Home Assistant Oberfläche den Ollama Assist eingerichtet. Das bedeutet: Wenn ich ins Assist-Fenster tippe "Wie warm ist es draußen?", fragt Home Assistant intern eine lokal laufende KI. Die holt sich die Antwort aus meinen eigenen Sensor-Daten und gibt sie zurück. Kein Datenaustausch nach außen, keine Verbindung zu irgendeinem Server.
Ich habe das live an meinem Mac Mini M4 gezeigt. Er idelt bei rund 6,5 bis 7 Watt. Sobald die Anfrage reinkommt, springt er kurz auf fast 50 Watt und gibt dann die Antwort zurück. Das alles passiert lokal, und das funktioniert bei mir wirklich gut.
Begriffe, die du kennen solltest
Bevor wir zur Hardware kommen, ein paar Grundbegriffe. Die tauchen bei der Modellauswahl ständig auf, und ohne die läuft man schnell in die falsche Richtung.
Parameter stehen bei Modellen als 3B, 8B oder 14B. Das B steht für Milliarden. Mehr Parameter heißt: das Modell ist schlauer, aber auch langsamer und braucht mehr Arbeitsspeicher. Ein 3B-Modell ist ungefähr auf Taschenrechner-Niveau, ein 8B-Modell schon deutlich brauchbarer.
Token sind Wortfragmente. Das Modell denkt nicht in ganzen Wörtern, sondern in kleinen Einheiten. "Wohnzimmer" sind zum Beispiel zwei bis drei Token. Die Geschwindigkeit wird in Token pro Sekunde gemessen. Ab etwa 15 Token pro Sekunde fühlt sich eine Antwort flüssig an. Unter 5 wird es zäh.
Quantisierung ist die Komprimierung des Modells. Q4 ist stark komprimiert, also kleiner und schneller, dafür minimal schlechtere Qualität. F16 wäre unkomprimiert. Vergleichbar mit JPEG gegen RAW bei Fotos.
Context Window beschreibt, wie viel Text das Modell gleichzeitig im Kopf behalten kann. 8.000 Token entsprechen ungefähr 6.000 Wörtern. Wenn der Kontext voll ist, vergisst das Modell den Anfang des Gesprächs. Für Home Assistant reichen 8k meistens aus, solange du nicht zu viele Entitäten freigibst.
Tool Calling ist das entscheidende Kriterium für die Modellwahl. Das Modell soll ja nicht nur Texte schreiben, sondern auch Funktionen aufrufen: das Licht einschalten, Temperaturen abfragen und so weiter. Nicht alle Modelle können das zuverlässig. Das ist der Punkt, der die Auswahl wirklich einschränkt.
Thinking Mode ist bei manchen Modellen aktiviert. Das Modell denkt erst intern nach, bevor es antwortet. Das verbessert die Qualität bei komplexen Fragen, kostet aber Zeit. Für einen Smart Home Assistenten ist das eigentlich unnötig. Ich will nicht sehen, wie das Modell darüber nachdenkt, ob die Küche warm ist.
Hardware im Vergleich
Ich habe eine Tabelle zusammengestellt, die verschiedene Hardware-Optionen mit realistischen Einschätzungen gegenüberstellt. Vom Raspberry Pi 5 mit 8 GB RAM bis zu einem PC mit RTX 4060 Ti mit 16 GB VRAM. Ich werde diese Übersicht auch auf alles-automatisch.de/lernen bereitstellen, ausführlicher als hier.
Kurz gesagt: Ein Raspberry Pi 5 kann kleine 3B-Modelle ausführen, aber das wird grenzwertig. Die Antwortzeiten sind hoch, und der Spaß hält sich in Grenzen. Wenn du das vernünftig nutzen willst, brauchst du etwas mehr.
Ich selber nutze einen Mac Mini M4 mit 16 GB Arbeitsspeicher. Der liegt in der Tabelle im Bereich 7B bis 8B Modelle, die flüssig laufen. Das passt für den Alltag wirklich gut. Ein Intel NUC oder ein Mini-PC mit integrierter GPU ist ebenfalls eine solide Option, wenn du keinen Mac haben willst.
Modelle im Vergleich: Wie groß ist der Unterschied?
Ich habe verschiedene Modelle mit demselben Prompt getestet: "Schreibe einen kurzen Text über Smart Home." Das klingt simpel, aber es zeigt sehr schön, wie unterschiedlich die Antwortzeiten ausfallen.
Gemma 4 mit 4 Milliarden Parametern hat auf dem Mac Mini insgesamt 21 Sekunden gebraucht. Das ist okay, aber spürbar. Qwen 3 mit 8 Milliarden Parametern kam auf 22 Sekunden, produzierte aber 30 Token pro Sekunde, was sich flüssiger angefühlt hat. Llama 3.2 mit 3 Milliarden Parametern war mit 9 Sekunden und fast 47 Token pro Sekunde deutlich schneller. Dafür ist das Ergebnis auf Taschenrechner-Niveau.
Das größere Modell, das ich noch getestet habe, hat über 34 Sekunden für die Antwort gebraucht und nur 11 Token pro Sekunde geliefert. Wenn du dir vorstellst, dass du das im Assist-Fenster eintippst und dann wartest, macht das keinen Spaß. Außer du bist wirklich geduldig, dann bekommst du dafür eine deutlich präzisere Antwort.
Die Modelle, die ich empfehle und auch benutze, findest du in der Ollama Model Library. Alle Modelle, die über Ollama verfügbar sind, sind kostenlos. Du lädst sie einfach runter und probierst sie durch.
Was als nächstes kommt
Die Installation von Ollama und die eigentliche Einrichtung in Home Assistant zeige ich in den nächsten Teilen dieser Reihe. Das kostet nichts und geht schneller als man denkt. Du kannst dir so viele Modelle runterladen, wie deine Festplatte hergibt, und dann einfach schauen, welches sich bei dir gut anfühlt.
Wenn du schon lokale KI zu Hause laufen hast: Welche Hardware nutzt du, und welches Modell hat sich bei dir am besten bewährt? Das würde mich wirklich interessieren.
