Saltar a contenido

MediaPipe

Framework de Google para percepción on-device en tiempo real. Su modelo Hands localiza 21 landmarks 2.5D por mano y es la base de la interacción por gestos en sistemas SAR como el holomat.

Contexto

Cubre la capa de entrada por manos/gestos de la mesa, complementando a opencv (geometría/medición). Necesario si se quiere UI proyectada interactiva.

Contenido

  • Hands: 21 landmarks 2.5D (x, y, profundidad relativa) en tiempo real, on-device, solo RGB.
  • Profundidad relativa, no métrica → para toque preciso conviene fusionar con cámara de profundidad (GMH-D = MediaPipe + RGB-D, mayor exactitud espacial).
  • Usado por el Holomat (junto a OpenCV) para detección de gestos. Ver deteccion toque gestos.

Relaciones

Citas / evidencia

  • "MediaPipe's hand landmark model performs precise landmark localization of 21 2.5D coordinates (x, y, and relative depth)." — deteccion toque gestos

Rendimiento en Raspberry Pi 5

  • ~30 fps sin manos, ~26–28 fps con una mano, ~22–25 con dos (single-thread Python). Pose completa (33 landmarks) ~6 fps. Recomendado ≥4 GB RAM; acelerable con AI Kit Hailo-8L. Ver seleccion hardware.

Abierto / gaps

  • Estabilidad del tracking bajo la luz del propio proyector (cámara cenital).