Arquitectura de referencia de una mesa de trabajo asistida por IA¶

Síntesis de cómo se ensamblan los componentes (cámara, proyector, cómputo, software) en un sistema cámara-cenital + proyector-cenital que observa, mide y proyecta guías sobre la mesa. Es el plano maestro que conecta todos los conceptos del wiki.

Contexto¶

Responde la pregunta integradora: "¿cómo encaja todo?". Destila el patrón común de holomat, cassapa, poolliveaid y los generadores Gridfinity.

Contenido¶

Capas del sistema¶

Captura (cámara cenital) — observa la mesa. Webcam RGB (Logitech C920) o cámara de profundidad (RealSense/Kinect) si se quiere toque/3D. Montaje paralelo al suelo, centrado.
Calibración (offline, una vez) — intrínsecos de la cámara + homografías cámara↔mesa↔proyector. Marcadores ArUco en las esquinas para fijar el marco de coordenadas.
Percepción (online) — contornos / detección de objetos / medición con referencia. Salida: geometría en mm en coordenadas de la mesa.
Lógica/IA — calcula qué dibujar (líneas, plantillas, medidas, instrucciones, trayectorias). Aquí entra la "IA": medición, sugerencias, o LLM/voz como en el Holomat.
Render/salida (proyector cenital) — projection mapping dibuja sobre la mesa usando la homografía mesa→proyector, con keystone resuelto.
Interacción (opcional) — gestos/toque con mediapipe para cerrar el bucle.

Flujo de datos (bucle)¶

Cámara → undistort → detectar referencia/marcadores → rectificar a coordenadas-mesa (mm)
      → detectar/medir objeto → lógica calcula artefactos → transformar a píxeles-proyector
      → proyectar → (usuario actúa) → repetir

Diagrama del rig y el flujo¶

flowchart TD
    subgraph RIG["Rig cenital (montaje fijo)"]
        CAM["Camara cenital<br/>(RGB / IR / depth)"]
        PROJ["Proyector<br/>(UST / short-throw)"]
    end
    MESA["Superficie de trabajo<br/>(plana, clara/mate)<br/>marcadores ArUco en esquinas"]

    CAM -->|imagen| UND["Undistort<br/>(calib. intrinseca)"]
    UND --> DET["Detectar referencia/marcadores<br/>+ contorno del objeto"]
    DET --> RECT["Rectificar a coords-mesa (mm)<br/>homografia camara-&gt;mesa"]
    RECT --> MED["Medir / interpretar<br/>(px -&gt; mm)"]
    MED --> LOGIC["Logica / IA<br/>que dibujar: lineas, plantillas,<br/>medidas, instrucciones"]
    LOGIC --> TPROJ["Transformar a px-proyector<br/>homografia mesa-&gt;proyector"]
    TPROJ --> PROJ
    PROJ -->|luz| MESA
    CAM -->|observa| MESA
    MESA -.->|usuario actua / mueve pieza| CAM
    LOGIC -.->|opcional| TOUCH["Gestos / toque<br/>MediaPipe / sombra"]
    TOUCH -.-> LOGIC

Cómputo¶

Raspberry Pi 5 (como el Holomat) es viable para casos no exigentes; un mini-PC/laptop da más holgura para visión + IA en tiempo real.

Decisión plana vs 3D¶

Si la superficie y los objetos son esencialmente planos (manualidades 2D), homografías bastan y simplifican todo. Para volumen real, structured light o cámara de profundidad.

Relaciones¶

Detalla en: pipeline medicion objeto, seleccion hardware, roadmap mvp manualidades
Instancias reales: holomat, cassapa
Limitada por: limites practicos

Citas / evidencia¶

El Holomat combina exactamente estas capas: Pi 5 + proyector + cámara + Charuco/4-puntos + MediaPipe — holomat

Abierto / gaps¶

(cubierto) diagrama del rig añadido arriba. Pendiente: foto/render de un montaje físico real.