Source: Ollama + HA local LLM 2026 (aggregated)¶
Sweet spot 2026: GPU con 8-12GB VRAM corre 7-8B models en Q4_K_M a 40+ tok/s. Budget option: RTX 3060 12GB usada ($250). Apple Silicon es alternativa quiet/efficient. HA 2025.6+ tiene Ollama integration built-in. Caveat: local LLM no es para comandos triviales, es para reasoning complejo.
Páginas derivadas¶
- ../analysis/local-ai-ollama-strategy — decisión cloud vs local para el setup del usuario.
- ../entities/ollama — entidad para el runtime.
Take-aways accionables¶
| Tier hardware | Cuándo | Cost |
|---|---|---|
| Budget RTX 3060 12GB usada | Querés probar local serio | $250 |
| Mid RTX 4060 Ti 16GB | Inversión planeada en local LLM | $400 |
| No-GPU | Si Cloud es OK + privacy no es bloqueador | $0 (usar cloud) |
| Apple Silicon Mac mini | Si querés silencioso + dedicated | $$$ |
Citas / quotes¶
-
"You don't want it processing 'turn off the bedroom lights' when HA can do that in 200ms on its own."
-
"8-12GB VRAM is the sweet spot."
Abierto / gaps¶
- Benchmark real Anthropic cloud vs Ollama local para use cases específicos de HA.
- Cuál es el modelo recomendado specifically para AI Task con structured output JSON.