Saltar a contenido

Estrategia local AI con Ollama — para Q7 y Q10

Decisión cloud vs local para el agente de Q10 y AI Task de Q7. Recomendación pragmática: empezar con cloud (Anthropic) para validar el agente y los runtime cases; migrar a Ollama local sólo si: (a) caso específico de privacy lo demanda, (b) tenés GPU dedicada o Apple Silicon, (c) volumen de invocaciones hace cloud cost > $30/mes. Sin estos triggers, cloud es más práctico.

Contexto

La opción "local AI" se ve atractiva en abstract (privacy! no cloud!) pero tiene costos reales: GPU dedicada, electricidad, complexity. Esta página establece cuándo vale la pena y qué hardware/modelo elegir.

Contenido

Decisión cloud vs local

Vector Cloud (Anthropic / OpenAI / Google) Local (Ollama)
Privacy Tokens van a vendor Cero data leaving home
Latencia 1-3 seg típicamente 1-5 seg con GPU; 10-30s CPU-only
Cost upfront $0 $250 GPU + $300+ mini-PC capable
Cost recurring $5-50/mes según uso (Anthropic) Electricity (~$10-30/mes según GPU)
Calidad Frontier models (Claude 4.6, GPT-5, Gemini) 7-13B local = "GPT-3.5 era" para razonamiento; muy bueno para queries simples
Reliability ISP dependiente 100% local
Mantenimiento Cero Updates Ollama, model pulls, GPU drivers
Setup API key, dale Hardware + drivers + Ollama + model download

Triggers para elegir local

Vale la pena ir local si TODOS estos:

  1. Privacy estricta: querés cero data leaving home incluso prompts de "qué luz prender". Razón legítima si tenés audio/video procesado.
  2. GPU disponible: ya tenés un RTX 3060+ o Apple Silicon Mac mini que está al pedo, o estás dispuesto a invertir $250-500 dedicated.
  3. Volumen alto justifica: estás invocando AI Task >100×día (ej. image classification 24×7). Cloud cost se vuelve $30+/mes.
  4. Querés learning: te interesa entender LLM hosting localmente como skill.

Si falta cualquiera, cloud sigue siendo mejor opción.

Triggers para quedarse en cloud

  • Setup nuevo y querés validar el caso de uso antes de comprar hardware.
  • AI Task <50 invocaciones/día → cloud cost < $5/mes, no vale el costo de local.
  • Tu use case requiere calidad alta de razonamiento (Claude 4.6 / GPT-5 nivel). Local 7-13B no llega ahí.
  • Tenés un cap de tinkering (tu meta principal) — local agrega un eje más.
Setup Hardware Cost Models que corre Velocidad
Entry: probar local + ver si vale RTX 3060 12GB usada $250 llama3.2:3b, llama3.1:8b Q4_K_M 40+ tok/s
Solid: comprometido a local RTX 4060 Ti 16GB $400 7-13B Q4_K_M, fast 50-80 tok/s
Silent / always-on: Apple Silicon M2/M3 Mac mini 16GB $$$$ 13B Q4 unified mem 30-50 tok/s
Premium: experimentación con modelos grandes RTX 4090 24GB $$$$ 30B Q4, 70B con offload varía

Para tu setup: el RTX 3060 usada es la entrada más razonable. Si validás que aporta, escalar.

Modelos recomendados para HA 2026

Modelo Use case VRAM
llama3.2:3b Conversation agent default HA 4GB
llama3.1:8b Mejor calidad para reasoning 8GB
qwen3:8b Alternativa competitive (a veces mejor en español) 8GB
gpt-oss-7b Cuando salga, candidate fuerte 8GB
llava (vision) Image classification (Frigate complemento) 8GB

Quantization: Q4_K_M universalmente. 75% memory savings, mantiene quality.

Patrón híbrido cloud + local (la mejor opción para muchos)

No es "todo cloud" vs "todo local". Patrón sensato:

Use case Donde corre
Agente Q10 ops continuo Cloud (Anthropic) — calidad importa, latencia OK, volumen bajo
AI Task daily digest Cloud — 1×día, calidad alta vale
AI Task image classification (Frigate) Local — alto volumen 24/7, latencia menor importa
AI Task plan generation semanal Cloud — 1×semana, calidad alta
Voice (si lo prendés en futuro) Local Ollama + Piper TTS — privacidad de audio + latencia

Cada tarea va al lugar que mejor balance hace para SU constraint dominante.

Setup técnico Ollama en mini-PC

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull model
ollama pull llama3.1:8b

# Configurar como service
sudo systemctl enable ollama
sudo systemctl start ollama

En HA configuration.yaml:

# HA 2025.6+ Ollama integration nativa
ollama:
  host: http://mini-pc.local:11434
  default_model: llama3.1:8b

AI Task entity puede apuntar a Ollama o cloud por entity diferente:

# Cloud y local coexisten
ai_task:
  - name: cloud_anthropic
    entity_id: ai_task.cloud
    provider: anthropic
  - name: local_ollama
    entity_id: ai_task.local
    provider: ollama

Cada automation elige qué entity usar según su trade-off.

Cost estimate mensual

Cloud only (Anthropic): - Agent ops 24/7 (cada 15 min, 1000 tokens avg): ~$15-20/mes. - AI Task daily digest: ~$1/mes. - AI Task image classification (10×día, 5K tokens): ~$10-15/mes. - Total: $30-40/mes.

Local only (Ollama): - GPU electricity (RTX 3060 idle 15W, peak 170W, promedio ~30W): ~$5-10/mes. - Mini-PC electricity: ya está corriendo. - Hardware: $250 amortized over 3 years = $7/mes equivalente. - Total recurring: $5-10/mes + amortización.

Hybrid (recommendation): - Ops + digest en cloud: $20/mes. - Image classification + alto-volumen en local: incluido en GPU costs. - Total: $20-25/mes + amortización GPU.

Privacy considerations

  • Cloud: vendor recibe prompts. Anthropic/OpenAI tienen políticas data-protective decentes, pero técnicamente los datos cruzan internet.
  • Local: cero datos leaving home.
  • Hybrid: separar por sensibilidad. Audio/video → local. Decisión high-level "encender HVAC" → cloud OK.

Failure modes específicos

A registrar en catálogo si vamos local:

  1. GPU se cae mid-query → AI Task timeout, fallback determinista.
  2. Model file corrupto → Ollama errors al pull. Re-download.
  3. VRAM OOM con model más grande del esperado → ajustar quantization o model size.
  4. Ollama version upgrade rompe API → pin version + manual upgrade.

Recomendación final para vos

Dada tu meta "no tinkering":

  1. Empezá en cloud (Anthropic) mes 1-3. Mide volumen real de invocaciones.
  2. Si volumen > $30/mes O privacy bloqueador concreto, compra RTX 3060 usada y validá.
  3. Si validás, hybrid stack: cloud para ops, local para alto-volumen.
  4. NO empieces en local — el costo de tinkering inicial contradice tu meta.

Relaciones

Citas / evidencia

  • "8-12GB VRAM is the sweet spot" — ../sources/ollama-ha-2026-hardware.

  • "You don't want it processing 'turn off the bedroom lights' when HA can do that in 200ms on its own." — same.

Abierto / gaps

  • Benchmark concreto Anthropic Claude vs local Llama 3.1 8B para AI Task con structured output.
  • Patron de load balancing AI Task entities (intentar cloud primero, fallback local si quota / down).
  • Modelo vision local optimal para image classification (llava vs minicpm vs idefics).