Arquitectura de referencia de una mesa de trabajo asistida por IA¶
Síntesis de cómo se ensamblan los componentes (cámara, proyector, cómputo, software) en un sistema cámara-cenital + proyector-cenital que observa, mide y proyecta guías sobre la mesa. Es el plano maestro que conecta todos los conceptos del wiki.
Contexto¶
Responde la pregunta integradora: "¿cómo encaja todo?". Destila el patrón común de holomat, cassapa, poolliveaid y los generadores Gridfinity.
Contenido¶
Capas del sistema¶
- Captura (cámara cenital) — observa la mesa. Webcam RGB (Logitech C920) o cámara de profundidad (RealSense/Kinect) si se quiere toque/3D. Montaje paralelo al suelo, centrado.
- Calibración (offline, una vez) — intrínsecos de la cámara + homografías cámara↔mesa↔proyector. Marcadores ArUco en las esquinas para fijar el marco de coordenadas.
- Percepción (online) — contornos / detección de objetos / medición con referencia. Salida: geometría en mm en coordenadas de la mesa.
- Lógica/IA — calcula qué dibujar (líneas, plantillas, medidas, instrucciones, trayectorias). Aquí entra la "IA": medición, sugerencias, o LLM/voz como en el Holomat.
- Render/salida (proyector cenital) — projection mapping dibuja sobre la mesa usando la homografía mesa→proyector, con keystone resuelto.
- Interacción (opcional) — gestos/toque con mediapipe para cerrar el bucle.
Flujo de datos (bucle)¶
Cámara → undistort → detectar referencia/marcadores → rectificar a coordenadas-mesa (mm)
→ detectar/medir objeto → lógica calcula artefactos → transformar a píxeles-proyector
→ proyectar → (usuario actúa) → repetir
Diagrama del rig y el flujo¶
flowchart TD
subgraph RIG["Rig cenital (montaje fijo)"]
CAM["Camara cenital<br/>(RGB / IR / depth)"]
PROJ["Proyector<br/>(UST / short-throw)"]
end
MESA["Superficie de trabajo<br/>(plana, clara/mate)<br/>marcadores ArUco en esquinas"]
CAM -->|imagen| UND["Undistort<br/>(calib. intrinseca)"]
UND --> DET["Detectar referencia/marcadores<br/>+ contorno del objeto"]
DET --> RECT["Rectificar a coords-mesa (mm)<br/>homografia camara->mesa"]
RECT --> MED["Medir / interpretar<br/>(px -> mm)"]
MED --> LOGIC["Logica / IA<br/>que dibujar: lineas, plantillas,<br/>medidas, instrucciones"]
LOGIC --> TPROJ["Transformar a px-proyector<br/>homografia mesa->proyector"]
TPROJ --> PROJ
PROJ -->|luz| MESA
CAM -->|observa| MESA
MESA -.->|usuario actua / mueve pieza| CAM
LOGIC -.->|opcional| TOUCH["Gestos / toque<br/>MediaPipe / sombra"]
TOUCH -.-> LOGIC
Cómputo¶
- Raspberry Pi 5 (como el Holomat) es viable para casos no exigentes; un mini-PC/laptop da más holgura para visión + IA en tiempo real.
Decisión plana vs 3D¶
Si la superficie y los objetos son esencialmente planos (manualidades 2D), homografías bastan y simplifican todo. Para volumen real, structured light o cámara de profundidad.
Relaciones¶
- Detalla en: pipeline medicion objeto, seleccion hardware, roadmap mvp manualidades
- Instancias reales: holomat, cassapa
- Limitada por: limites practicos
Citas / evidencia¶
- El Holomat combina exactamente estas capas: Pi 5 + proyector + cámara + Charuco/4-puntos + MediaPipe — holomat
Abierto / gaps¶
- (cubierto) diagrama del rig añadido arriba. Pendiente: foto/render de un montaje físico real.