Estrategia local AI con Ollama — para Q7 y Q10¶

Decisión cloud vs local para el agente de Q10 y AI Task de Q7. Recomendación pragmática: empezar con cloud (Anthropic) para validar el agente y los runtime cases; migrar a Ollama local sólo si: (a) caso específico de privacy lo demanda, (b) tenés GPU dedicada o Apple Silicon, (c) volumen de invocaciones hace cloud cost > $30/mes. Sin estos triggers, cloud es más práctico.

Contexto¶

La opción "local AI" se ve atractiva en abstract (privacy! no cloud!) pero tiene costos reales: GPU dedicada, electricidad, complexity. Esta página establece cuándo vale la pena y qué hardware/modelo elegir.

Contenido¶

Decisión cloud vs local¶

Vector	Cloud (Anthropic / OpenAI / Google)	Local (Ollama)
Privacy	Tokens van a vendor	Cero data leaving home
Latencia	1-3 seg típicamente	1-5 seg con GPU; 10-30s CPU-only
Cost upfront	$0	$250 GPU + $300+ mini-PC capable
Cost recurring	$5-50/mes según uso (Anthropic)	Electricity (~$10-30/mes según GPU)
Calidad	Frontier models (Claude 4.6, GPT-5, Gemini)	7-13B local = "GPT-3.5 era" para razonamiento; muy bueno para queries simples
Reliability	ISP dependiente	100% local
Mantenimiento	Cero	Updates Ollama, model pulls, GPU drivers
Setup	API key, dale	Hardware + drivers + Ollama + model download

Triggers para elegir local¶

Vale la pena ir local si TODOS estos:

Privacy estricta: querés cero data leaving home incluso prompts de "qué luz prender". Razón legítima si tenés audio/video procesado.
GPU disponible: ya tenés un RTX 3060+ o Apple Silicon Mac mini que está al pedo, o estás dispuesto a invertir $250-500 dedicated.
Volumen alto justifica: estás invocando AI Task >100×día (ej. image classification 24×7). Cloud cost se vuelve $30+/mes.
Querés learning: te interesa entender LLM hosting localmente como skill.

Si falta cualquiera, cloud sigue siendo mejor opción.

Triggers para quedarse en cloud¶

Setup nuevo y querés validar el caso de uso antes de comprar hardware.
AI Task <50 invocaciones/día → cloud cost < $5/mes, no vale el costo de local.
Tu use case requiere calidad alta de razonamiento (Claude 4.6 / GPT-5 nivel). Local 7-13B no llega ahí.
Tenés un cap de tinkering (tu meta principal) — local agrega un eje más.

Recommended hardware si decidís local¶

Setup	Hardware	Cost	Models que corre	Velocidad
Entry: probar local + ver si vale	RTX 3060 12GB usada	$250	llama3.2:3b, llama3.1:8b Q4_K_M	40+ tok/s
Solid: comprometido a local	RTX 4060 Ti 16GB	$400	7-13B Q4_K_M, fast	50-80 tok/s
Silent / always-on: Apple Silicon	M2/M3 Mac mini 16GB	$$$$	13B Q4 unified mem	30-50 tok/s
Premium: experimentación con modelos grandes	RTX 4090 24GB	$$$$	30B Q4, 70B con offload	varía

Para tu setup: el RTX 3060 usada es la entrada más razonable. Si validás que aporta, escalar.

Modelos recomendados para HA 2026¶

Modelo	Use case	VRAM
llama3.2:3b	Conversation agent default HA	4GB
llama3.1:8b	Mejor calidad para reasoning	8GB
qwen3:8b	Alternativa competitive (a veces mejor en español)	8GB
gpt-oss-7b	Cuando salga, candidate fuerte	8GB
llava (vision)	Image classification (Frigate complemento)	8GB

Quantization: Q4_K_M universalmente. 75% memory savings, mantiene quality.

Patrón híbrido cloud + local (la mejor opción para muchos)¶

No es "todo cloud" vs "todo local". Patrón sensato:

Use case	Donde corre
Agente Q10 ops continuo	Cloud (Anthropic) — calidad importa, latencia OK, volumen bajo
AI Task daily digest	Cloud — 1×día, calidad alta vale
AI Task image classification (Frigate)	Local — alto volumen 24/7, latencia menor importa
AI Task plan generation semanal	Cloud — 1×semana, calidad alta
Voice (si lo prendés en futuro)	Local Ollama + Piper TTS — privacidad de audio + latencia

Cada tarea va al lugar que mejor balance hace para SU constraint dominante.

Setup técnico Ollama en mini-PC¶

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull model
ollama pull llama3.1:8b

# Configurar como service
sudo systemctl enable ollama
sudo systemctl start ollama

En HA configuration.yaml:

# HA 2025.6+ Ollama integration nativa
ollama:
  host: http://mini-pc.local:11434
  default_model: llama3.1:8b

AI Task entity puede apuntar a Ollama o cloud por entity diferente:

# Cloud y local coexisten
ai_task:
  - name: cloud_anthropic
    entity_id: ai_task.cloud
    provider: anthropic
  - name: local_ollama
    entity_id: ai_task.local
    provider: ollama

Cada automation elige qué entity usar según su trade-off.

Cost estimate mensual¶

Cloud only (Anthropic): - Agent ops 24/7 (cada 15 min, 1000 tokens avg): ~$15-20/mes. - AI Task daily digest: ~$1/mes. - AI Task image classification (10×día, 5K tokens): ~$10-15/mes. - Total: $30-40/mes.

Local only (Ollama): - GPU electricity (RTX 3060 idle 15W, peak 170W, promedio ~30W): ~$5-10/mes. - Mini-PC electricity: ya está corriendo. - Hardware: $250 amortized over 3 years = $7/mes equivalente. - Total recurring: $5-10/mes + amortización.

Hybrid (recommendation): - Ops + digest en cloud: $20/mes. - Image classification + alto-volumen en local: incluido en GPU costs. - Total: $20-25/mes + amortización GPU.

Privacy considerations¶

Cloud: vendor recibe prompts. Anthropic/OpenAI tienen políticas data-protective decentes, pero técnicamente los datos cruzan internet.
Local: cero datos leaving home.
Hybrid: separar por sensibilidad. Audio/video → local. Decisión high-level "encender HVAC" → cloud OK.

Failure modes específicos¶

A registrar en catálogo si vamos local:

GPU se cae mid-query → AI Task timeout, fallback determinista.
Model file corrupto → Ollama errors al pull. Re-download.
VRAM OOM con model más grande del esperado → ajustar quantization o model size.
Ollama version upgrade rompe API → pin version + manual upgrade.

Recomendación final para vos¶

Dada tu meta "no tinkering":

Empezá en cloud (Anthropic) mes 1-3. Mide volumen real de invocaciones.
Si volumen > $30/mes O privacy bloqueador concreto, compra RTX 3060 usada y validá.
Si validás, hybrid stack: cloud para ops, local para alto-volumen.
NO empieces en local — el costo de tinkering inicial contradice tu meta.

Relaciones¶

Aplica a: q7 llm runtime strategy v1 (cost-budget).
Aplica a: q10 ai tooling strategy v1 (donde corre el agente).
Habilitada por: ha ai 2025 09 (HA tiene Ollama integration built-in).

Citas / evidencia¶

"8-12GB VRAM is the sweet spot" — ollama ha 2026 hardware.
"You don't want it processing 'turn off the bedroom lights' when HA can do that in 200ms on its own." — same.

Abierto / gaps¶

Benchmark concreto Anthropic Claude vs local Llama 3.1 8B para AI Task con structured output.
Patron de load balancing AI Task entities (intentar cloud primero, fallback local si quota / down).
Modelo vision local optimal para image classification (llava vs minicpm vs idefics).