Der Wunsch nach einer lokalen Sprachsteuerung für das Smart Home ist oft von Enttäuschungen geprägt. Wer Whisper für die Spracherkennung und ein Large Language Model (LLM) für die Intelligenz auf zu schwacher Hardware betreibt, kämpft mit hohen Latenzen. Eine Antwortzeit von drei Sekunden macht die Interaktion im Alltag unbrauchbar. Der neue Mac Mini M4 bietet hierfür eine effiziente Lösung, doch die Wahl der Speicherausstattung entscheidet über Erfolg oder Misserfolg.
Das Problem mit dem 16 GB Basismodell
Viele Nutzer greifen zum Standardmodell mit 16 GB Unified Memory, da der M4-Chip selbst identisch leistungsstark ist. Für den reinen Betrieb von macOS ist dies ausreichend. Im Kontext eines KI-Servers für Home Assistant entsteht jedoch ein kritischer Flaschenhals.
- Speicherteilung: Bei Apple Silicon teilen sich CPU, GPU und Neural Engine den Arbeitsspeicher. macOS reserviert für sich selbst bereits etwa 4 GB.
- Speicherbedarf der KI: Das Whisper-Modell „Large-v3“ (notwendig für zuverlässige deutsche Erkennung) benötigt im Betrieb etwa 4 bis 5 GB RAM. Ein leistungsfähiges LLM wie Llama 3.1 (8B) belegt weitere 6 GB. Hinzu kommen der Kontext-Cache für den Gesprächsverlauf und Overhead durch Docker oder Server-Dienste.
- Die Swap-Falle: Mit 16 GB ist der physikalische Speicher voll ausgelastet. Sobald eine weitere Anfrage eingeht, beginnt macOS, Daten auf die SSD auszulagern (Swapping). Die Speicherbandbreite fällt von 120 GB/s (RAM) auf einen Bruchteil (SSD). Die Folge ist eine spürbare Verzögerung vor jeder Antwort. Der Assistent wirkt träge.
Warum 24 GB die technische Untergrenze für Performance sind
Die Version mit 24 GB RAM beseitigt dieses physikalische Limit. Sie bietet den notwendigen Puffer von ca. 8 GB, um sowohl das Spracherkennungsmodell als auch das Sprachmodell dauerhaft unkomprimiert im schnellen Arbeitsspeicher zu halten.
Der Vorteil liegt in der Latenzfreiheit. Da keine Daten von der SSD nachgeladen werden müssen, antwortet das System nahezu in Echtzeit. Die Neural Engine des M4 kann ihre volle Leistung entfalten, ohne auf Daten warten zu müssen. Hinzu kommt die Energieeffizienz: Der Mac Mini M4 verbraucht im Leerlauf lediglich 3 bis 5 Watt. Dies macht ihn im Gegensatz zu ausgewachsenen Workstations oder alten Servern zur idealen „Always-On“-Lösung für die Haussteuerung. Wer hier am falschen Ende spart und zum 16 GB Modell greift, kauft die Wartezeit gleich mit.
Installation auf dem Mac Mini
Diese Anleitung richtet den Mac Mini als Satelliten für Home Assistant ein. Wir installieren Ollama für die Textgenerierung und Wyoming Whisper für die Spracherkennung.
Voraussetzung Mac Mini M4 (24 GB) mit frischem macOS. Terminal App geöffnet.
Schritt 1: Homebrew und Python installieren Homebrew ist der Paketmanager für macOS, der die Installation von Software erleichtert.
- Kopiere folgenden Befehl ins Terminal, um Homebrew zu installieren (bestätige die Abfragen):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"- Füge Homebrew zu deinem Pfad hinzu (das Terminal zeigt dir nach der Installation den genauen Befehl dazu an, meistens beginnt er mit
echo). - Installiere Python und ffmpeg (wichtig für Audio-Verarbeitung):
brew
install python ffmpegSchritt 2: Ollama installieren und Modell laden Ollama dient als Backend für das LLM.
- Installiere Ollama:
brew install ollama- Starte den Ollama Server im Hintergrund:
brew services start ollama - Lade das Modell „Llama 3.1 8B“ (guter Allrounder) oder „Qwen 2.5 7B“ (etwas schneller):
ollama pull llama3.1 - Teste kurz, ob es läuft:
ollama run llama3.1(Tippe „Hallo“ ein. Wenn eine Antwort kommt, drückeCtrl + dzum Beenden).
Schritt 3: Wyoming Whisper installieren Wir nutzen ein Python-Skript, das das Wyoming-Protokoll bereitstellt, damit Home Assistant den Mac versteht. Wir installieren dies in einer virtuellen Umgebung, um das System sauber zu halten.
- Erstelle einen Ordner für den Satelliten:
mkdir ~/ha-satellitecd ~/ha-satellite - Erstelle eine virtuelle Python-Umgebung:
python3 -m venv venv - Aktiviere die Umgebung:
source venv/bin/activate - Installiere Wyoming-Faster-Whisper (dies nutzt optimierte Bibliotheken):
pip install wyoming-faster-whisper
Schritt 4: Die Dienste starten Du benötigst nun zwei Terminal-Fenster oder nutzt einen Prozess-Manager (wie screen oder tmux), damit beides dauerhaft läuft.
Terminal A (Whisper): Startet Whisper auf Port 10300. Wir nutzen das Modell „large-v3-turbo“, das auf dem M4 extrem schnell ist. source ~/ha-satellite/venv/bin/activate python3 -m wyoming_faster_whisper --uri tcp://0.0.0.0:10300 --model large-v3-turbo --device cpu --compute-type int8 (Hinweis: „device cpu“ ist hier korrekt, da die darunterliegende Library auf Apple Silicon automatisch die Accelerate-Frameworks nutzt. Reine GPU-Erzwingung ist oft instabiler).
Terminal B (Ollama): Ollama läuft bereits als Service auf Port 11434 (durch Schritt 2). Du musst hier nichts tun, außer sicherzustellen, dass der Dienst aktiv ist.
Schritt 5: Einbindung in Home Assistant Gehe in deine Home Assistant Benutzeroberfläche.
- Navigiere zu: Einstellungen -> Geräte & Dienste -> Integration hinzufügen.
- Suche nach „Wyoming“.
- Wähle „Wyoming Protocol“.
- Gib die IP-Adresse deines Mac Mini ein und den Port 10300. (Dies verbindet Whisper).
- Wiederhole den Vorgang: Integration hinzufügen -> „Ollama“.
- Gib die IP-Adresse deines Mac Mini ein und den Port 11434. (Dies verbindet das LLM).
Jetzt stehen dir beide Dienste in Home Assistant zur Verfügung, um eine „Assist Pipeline“ zu bauen.