Saltar a contenido

Source: Ollama + HA local LLM 2026 (aggregated)

Sweet spot 2026: GPU con 8-12GB VRAM corre 7-8B models en Q4_K_M a 40+ tok/s. Budget option: RTX 3060 12GB usada ($250). Apple Silicon es alternativa quiet/efficient. HA 2025.6+ tiene Ollama integration built-in. Caveat: local LLM no es para comandos triviales, es para reasoning complejo.

Páginas derivadas

Take-aways accionables

Tier hardware Cuándo Cost
Budget RTX 3060 12GB usada Querés probar local serio $250
Mid RTX 4060 Ti 16GB Inversión planeada en local LLM $400
No-GPU Si Cloud es OK + privacy no es bloqueador $0 (usar cloud)
Apple Silicon Mac mini Si querés silencioso + dedicated $$$

Citas / quotes

  • "You don't want it processing 'turn off the bedroom lights' when HA can do that in 200ms on its own."

  • "8-12GB VRAM is the sweet spot."

Abierto / gaps

  • Benchmark real Anthropic cloud vs Ollama local para use cases específicos de HA.
  • Cuál es el modelo recomendado specifically para AI Task con structured output JSON.