Source: Ollama + HA local LLM 2026 (aggregated)¶

Sweet spot 2026: GPU con 8-12GB VRAM corre 7-8B models en Q4_K_M a 40+ tok/s. Budget option: RTX 3060 12GB usada ($250). Apple Silicon es alternativa quiet/efficient. HA 2025.6+ tiene Ollama integration built-in. Caveat: local LLM no es para comandos triviales, es para reasoning complejo.

Páginas derivadas¶

local ai ollama strategy — decisión cloud vs local para el setup del usuario.
ollama — entidad para el runtime.

Take-aways accionables¶

Tier hardware	Cuándo	Cost
Budget RTX 3060 12GB usada	Querés probar local serio	$250
Mid RTX 4060 Ti 16GB	Inversión planeada en local LLM	$400
No-GPU	Si Cloud es OK + privacy no es bloqueador	$0 (usar cloud)
Apple Silicon Mac mini	Si querés silencioso + dedicated	$$$

Citas / quotes¶

"You don't want it processing 'turn off the bedroom lights' when HA can do that in 200ms on its own."
"8-12GB VRAM is the sweet spot."

Abierto / gaps¶

Benchmark real Anthropic cloud vs Ollama local para use cases específicos de HA.
Cuál es el modelo recomendado specifically para AI Task con structured output JSON.