Estrategia local AI con Ollama — para Q7 y Q10¶
Decisión cloud vs local para el agente de Q10 y AI Task de Q7. Recomendación pragmática: empezar con cloud (Anthropic) para validar el agente y los runtime cases; migrar a Ollama local sólo si: (a) caso específico de privacy lo demanda, (b) tenés GPU dedicada o Apple Silicon, (c) volumen de invocaciones hace cloud cost > $30/mes. Sin estos triggers, cloud es más práctico.
Contexto¶
La opción "local AI" se ve atractiva en abstract (privacy! no cloud!) pero tiene costos reales: GPU dedicada, electricidad, complexity. Esta página establece cuándo vale la pena y qué hardware/modelo elegir.
Contenido¶
Decisión cloud vs local¶
| Vector | Cloud (Anthropic / OpenAI / Google) | Local (Ollama) |
|---|---|---|
| Privacy | Tokens van a vendor | Cero data leaving home |
| Latencia | 1-3 seg típicamente | 1-5 seg con GPU; 10-30s CPU-only |
| Cost upfront | $0 | $250 GPU + $300+ mini-PC capable |
| Cost recurring | $5-50/mes según uso (Anthropic) | Electricity (~$10-30/mes según GPU) |
| Calidad | Frontier models (Claude 4.6, GPT-5, Gemini) | 7-13B local = "GPT-3.5 era" para razonamiento; muy bueno para queries simples |
| Reliability | ISP dependiente | 100% local |
| Mantenimiento | Cero | Updates Ollama, model pulls, GPU drivers |
| Setup | API key, dale | Hardware + drivers + Ollama + model download |
Triggers para elegir local¶
Vale la pena ir local si TODOS estos:
- Privacy estricta: querés cero data leaving home incluso prompts de "qué luz prender". Razón legítima si tenés audio/video procesado.
- GPU disponible: ya tenés un RTX 3060+ o Apple Silicon Mac mini que está al pedo, o estás dispuesto a invertir $250-500 dedicated.
- Volumen alto justifica: estás invocando AI Task >100×día (ej. image classification 24×7). Cloud cost se vuelve $30+/mes.
- Querés learning: te interesa entender LLM hosting localmente como skill.
Si falta cualquiera, cloud sigue siendo mejor opción.
Triggers para quedarse en cloud¶
- Setup nuevo y querés validar el caso de uso antes de comprar hardware.
- AI Task <50 invocaciones/día → cloud cost < $5/mes, no vale el costo de local.
- Tu use case requiere calidad alta de razonamiento (Claude 4.6 / GPT-5 nivel). Local 7-13B no llega ahí.
- Tenés un cap de tinkering (tu meta principal) — local agrega un eje más.
Recommended hardware si decidís local¶
| Setup | Hardware | Cost | Models que corre | Velocidad |
|---|---|---|---|---|
| Entry: probar local + ver si vale | RTX 3060 12GB usada | $250 | llama3.2:3b, llama3.1:8b Q4_K_M | 40+ tok/s |
| Solid: comprometido a local | RTX 4060 Ti 16GB | $400 | 7-13B Q4_K_M, fast | 50-80 tok/s |
| Silent / always-on: Apple Silicon | M2/M3 Mac mini 16GB | $$$$ | 13B Q4 unified mem | 30-50 tok/s |
| Premium: experimentación con modelos grandes | RTX 4090 24GB | $$$$ | 30B Q4, 70B con offload | varía |
Para tu setup: el RTX 3060 usada es la entrada más razonable. Si validás que aporta, escalar.
Modelos recomendados para HA 2026¶
| Modelo | Use case | VRAM |
|---|---|---|
| llama3.2:3b | Conversation agent default HA | 4GB |
| llama3.1:8b | Mejor calidad para reasoning | 8GB |
| qwen3:8b | Alternativa competitive (a veces mejor en español) | 8GB |
| gpt-oss-7b | Cuando salga, candidate fuerte | 8GB |
| llava (vision) | Image classification (Frigate complemento) | 8GB |
Quantization: Q4_K_M universalmente. 75% memory savings, mantiene quality.
Patrón híbrido cloud + local (la mejor opción para muchos)¶
No es "todo cloud" vs "todo local". Patrón sensato:
| Use case | Donde corre |
|---|---|
| Agente Q10 ops continuo | Cloud (Anthropic) — calidad importa, latencia OK, volumen bajo |
| AI Task daily digest | Cloud — 1×día, calidad alta vale |
| AI Task image classification (Frigate) | Local — alto volumen 24/7, latencia menor importa |
| AI Task plan generation semanal | Cloud — 1×semana, calidad alta |
| Voice (si lo prendés en futuro) | Local Ollama + Piper TTS — privacidad de audio + latencia |
Cada tarea va al lugar que mejor balance hace para SU constraint dominante.
Setup técnico Ollama en mini-PC¶
# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Pull model
ollama pull llama3.1:8b
# Configurar como service
sudo systemctl enable ollama
sudo systemctl start ollama
En HA configuration.yaml:
# HA 2025.6+ Ollama integration nativa
ollama:
host: http://mini-pc.local:11434
default_model: llama3.1:8b
AI Task entity puede apuntar a Ollama o cloud por entity diferente:
# Cloud y local coexisten
ai_task:
- name: cloud_anthropic
entity_id: ai_task.cloud
provider: anthropic
- name: local_ollama
entity_id: ai_task.local
provider: ollama
Cada automation elige qué entity usar según su trade-off.
Cost estimate mensual¶
Cloud only (Anthropic): - Agent ops 24/7 (cada 15 min, 1000 tokens avg): ~$15-20/mes. - AI Task daily digest: ~$1/mes. - AI Task image classification (10×día, 5K tokens): ~$10-15/mes. - Total: $30-40/mes.
Local only (Ollama): - GPU electricity (RTX 3060 idle 15W, peak 170W, promedio ~30W): ~$5-10/mes. - Mini-PC electricity: ya está corriendo. - Hardware: $250 amortized over 3 years = $7/mes equivalente. - Total recurring: $5-10/mes + amortización.
Hybrid (recommendation): - Ops + digest en cloud: $20/mes. - Image classification + alto-volumen en local: incluido en GPU costs. - Total: $20-25/mes + amortización GPU.
Privacy considerations¶
- Cloud: vendor recibe prompts. Anthropic/OpenAI tienen políticas data-protective decentes, pero técnicamente los datos cruzan internet.
- Local: cero datos leaving home.
- Hybrid: separar por sensibilidad. Audio/video → local. Decisión high-level "encender HVAC" → cloud OK.
Failure modes específicos¶
A registrar en catálogo si vamos local:
- GPU se cae mid-query → AI Task timeout, fallback determinista.
- Model file corrupto → Ollama errors al pull. Re-download.
- VRAM OOM con model más grande del esperado → ajustar quantization o model size.
- Ollama version upgrade rompe API → pin version + manual upgrade.
Recomendación final para vos¶
Dada tu meta "no tinkering":
- Empezá en cloud (Anthropic) mes 1-3. Mide volumen real de invocaciones.
- Si volumen > $30/mes O privacy bloqueador concreto, compra RTX 3060 usada y validá.
- Si validás, hybrid stack: cloud para ops, local para alto-volumen.
- NO empieces en local — el costo de tinkering inicial contradice tu meta.
Relaciones¶
- Aplica a: q7-llm-runtime-strategy-v1 (cost-budget).
- Aplica a: q10-ai-tooling-strategy-v1 (donde corre el agente).
- Habilitada por: ../sources/ha-ai-2025-09 (HA tiene Ollama integration built-in).
Citas / evidencia¶
-
"8-12GB VRAM is the sweet spot" — ../sources/ollama-ha-2026-hardware.
-
"You don't want it processing 'turn off the bedroom lights' when HA can do that in 200ms on its own." — same.
Abierto / gaps¶
- Benchmark concreto Anthropic Claude vs local Llama 3.1 8B para AI Task con structured output.
- Patron de load balancing AI Task entities (intentar cloud primero, fallback local si quota / down).
- Modelo vision local optimal para image classification (llava vs minicpm vs idefics).